Contents - 目次
Google AI StudioのGeminiとは?
Google AI StudioのGeminiのモデル。
Geminiの最新モデルたち。
Google AI Studioのモデルに、「Gemini Experimental 1114」が登場。
Gemini 1.5 Proの最新版「Gemini 1.5 Pro 002」と同様に、無料ユーザーでも利用可能。
プレビュー版(試験運用)モデルとして、モデルのプルダウンメニューから選択できる。
(※バージョンアップなどで画面のデザインが変わっていることがあります。)
Gemini Experimental 1121。
数日後、OpenAIのChatGPTのアップデート版が登場。Googleもさらに「Gemini Experimental 1121」をリリース。
Google AI StudioのURL。
普通のGeminiとAI StudioのGemini。
Google AI StudioのGeminiは、普通のGeminiとURLが異なっている。
UIも日本語対応されていないが、利用は日本語ででき、かつ無料で使用できる。
- 普通のGoogle Gemini:https://gemini.google.com
- Google AI StudioのGemini:https://aistudio.google.com
Google AI StudioのGeminiの使い方。
Google AI StudioのGeminiまでの手順。
Google AI Studioへアクセス。
「Google AI Studio」で検索するか、下記のURLからサイトへ進む。
URL:https://aistudio.google.com
Googleアカウントでログイン。
画面左側にある青いボタン「Sign in to Google AI Studio」をクリックし、Googleアカウントでログイン(サインイン)する。
すでにGoogleへログインしている状態であれば、直接Google AI StudioのGeminiの画面となる。
Geminiのモデルを選択。
画面右上にある「Medel(モデル)」のプルダウンメニューから選択する。
Gemini 1.5 Pro 002にできること。
Gemini 1.5 Proのアップデート版。
無料で200万トークンが利用できる。
Gemini 1.5 Pro 002は、画像や動画を生成するタイプではなく、テキスト関連に長けている。
画像や動画なども認識可能な、マルチモーダルAI。
画像、ビデオ、オーディオを理解することも可能。
(※画像認識の精度は高いが、ビデオとオーディオは誤認識もある。)
また、Python、C++、JavaScript、HTML、CSSなどのコーディングの補助もできる。
あるプログラム言語から、別の言語への変換も可能。
(※複雑なプロジェクトの開発や最新のフレームワークなどは不可。)
- 質問に答える。
- 文章を作成する。
- 翻訳をする。
- 要約をする。
- アイデアを出す。
- 会話をする。
- 画像を認識する。
- 音声(音楽)を認識する。
- 動画を認識する。
- コーディングをする。
- デバッグをする。
- など。
マルチモーダルの機能について。
画像認識の例。
パナソニックのLED電球については、テキストもあったためもあり、正解だった。
記載されていない口径のサイズ(E26)までは、認識されていない。
音声認識の例。
U2の音楽については、なぜかRADWIMPSと間違えていた。曲のタイトルも違う。
動画認識の例。
容量の問題なのか、動画認識がうまくいかないこともある。
野生のうさぎであることは間違いなし。
ただし、水面はない。
周囲の景色と同じような色で擬態のようになっており、かつ被写体のうさぎが小さかったためだと思われる。
Gemini Experimental 1114にできること。
Gemini史上、最高レベルの能力。
無料で使用ができ、精度が高い。
Gemini Experimental 1114も、画像や動画を生成するタイプではなく、画像認識や動画認識、テキスト関連やコーディング関連に長けている。
試験運用中でもあり、トークン数は少ない。
AIの能力を測るいわゆる「ベンチマーク」では、現時点での世界総合1位とのこと。
OpenAIから「GPT-4o-2024-11-20」の発表あり。ChatGPTの最新バージョンが、世界総合1位に。
その直後、Googleが「Gemini Experimental 1121」をリリース。再逆転の可能性あり。
- 質問に答える。
- 文章を作成する。
- 翻訳をする。
- 要約をする。
- アイデアを出す。
- 会話をする。
- 画像を認識する。
- 音声(音楽)を認識する。
- 動画を認識する。
- コーディングをする。
- デバッグをする。
- など。
知識の幅が広い。
歴史、科学、文化、時事問題など、幅広い分野をカバーしており、複数の言語を翻訳できる。
長い文章の要約や、重要ポイントの抽出も可能。
ブレインストーミングの手伝いや、新しいアイデアの提案などを、自然な会話で行うことができる。
マルチモーダルの機能について。
画像認識の例。
パナソニックのLED電球については、項目別に分けられ、詳しい説明ができている。
こちらも口径のサイズ(E26)までは認識されていない。
動画認識の例。
こちらはエラーとなってしまった。容量が80MB以上あったので、6MBまで圧縮しても、同じエラーだった。
画像生成のお願いが文章生成へ。
無理を承知で「子猫が遊んでいる画像を生成してください。」とお願いしたところ、下記の文章がほんの数秒で生成された。
生成された文章。
『ふわふわの柔らかい毛並みを持つ小さな子猫が、太陽の光が差し込む部屋の中で元気に遊んでいます。子猫は、小さなおもちゃのボールを追いかけて、軽やかに部屋の中を走り回っています。時々、ボールに飛びついて、小さな手で器用に転がしたり、くわえて得意げに運んだりしています。
好奇心旺盛な子猫は、部屋の中にあるものすべてに興味津々。カーテンの揺れにじゃれたり、床に落ちている紐を追いかけたりと、遊びは尽きません。遊び疲れると、日当たりの良い場所で丸くなって、気持ちよさそうにうたた寝を始めます。』
Gemini 2.0。
Gemini 2.0について。
Gemini 2.0は、試験運用と並行進行中。
Gemini Advancedユーザー向けに、「Gemini 2.0 Experimental Advanced」がリリース。
「Deep Research」機能により、AIがネット検索をして、ユーザーの代わりにレポート作成もできるとのこと。
Project Astraによる、映像の確認。
Project Astraによって、スマホカメラで見ている映像について、AI アシスタントのGeminiアプリに、テキストだけでなく音声でも質問することができる。
他言語対応なので、海外旅行時などにも利用可能。
(※現時点では、待機リストへ登録したテスター向け。)
Project Marinerによる、タスクの支援。
Chromeの拡張機能を使用したGoogle検索によってウェブ上の情報を使用し、ユーザーの代わりにタスクを支援、完了するこのこと。
(※現時点では、試験運用中。)
参照元:Gemini 2.0: エージェント時代に向けた新しい AI モデル
また、無料ユーザーは、「Gemini 2.0 Flash」がGoogle AI Studioから使用可能。
Gemini 2.0 Flashは、Googleアカウントがあれば、ログインしてすぐに使うことができる。
(※Gemini 2.0 Flashも、試験運用版。)
以上、参考になれば幸いです。
※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。
AI 関連メモ。
ChatGPT 関連メモ。
- ChatGPT searchとは?使い方や、有料と無料、Googleとの違い。
- Chrome拡張機能、ChatGPT searchの使い方。自然言語、日常会話で検索。
- ChatGPTに検索機能。ChatGPT searchでWeb検索が可能に。
- MacとWindowsでもChatGPTと音声会話。Advanced Voiceが利用可能に。
- Advanced Voiceによる音声会話。ChatGPTとプラトニックな関係に?
- OpenAI o1の使い方。考えてから答える新しいChatGPTモデル。
- Voice Engineという名の、音声合成技術。日本語の精度は?
- SearchGPT。ChatGPTがAI検索エンジンに。使い方の例と順番待ちへの登録方法。
- GPT-4o miniが登場。ChatGPT無料版はGPT-3.5からバージョンアップ。
- ChatGPT無料ユーザーにもメモリ機能が。記憶や使い方の例。
- iPhoneやiPad、MacでChatGPT(GTP-4o)が。Apple Intelligence。
- 生成AIとWebデザイン、ChatGPTを活用したコーディングに必要なもの。
- ChatGPT最新モデル GPT-4oが無料でも。使える主な機能。
- ChatGPT(GPT-4o)で、PDF要約の精度を検証した結果。
- GPT-4o。ChatGPTと画像見ながら音声で会話?有料でも無料でも。
- ChatGPT無料版でも画像生成が可能に。有料版だけじゃない!?
- ChatGPT(チャットGPT)にアーカイブ機能が。復元も削除も。
- ChatGPT(チャットGPT)を日本語化。日本語設定の方法。
- ChatGPT(チャットGPT)との音声会話と、音声の変更方法。
- ChatGPTアプリのインストールとログイン方法、チャットの使い方。
- ChatGPT(チャットGPT)のスペルチェック、文章校正がむっちゃ楽。
- ChatGPT(チャットGPT)へのログイン方法。ログインできないとき。
- ChatGPTにプラグイン。広がる機能と使い方。最新情報へも。
- ChatGPTがLINEに?「AIチャットくん」の始め方、そして使い方。
- ChatGPTの始め方と使い方と。初心者向けシンプル版。
- ChatGPTはSVGアイコンを作れるのか?
- ChatGPTの文章作成やコーディング、SEO対策は変わるか?
DALL·E 関連メモ。
Sora 関連メモ。
- OpenAI Soraの短編映画。アーティストや映画制作者たち。
- OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
- OpenAIからSora(動画生成AI)が広がる。デモやWebCMから一般公開へ。
Gemini 関連メモ。
- Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。
- Gemini 1.5 Pro 2Mモデル。Waitlistの登録手順。日本語上手なGoogle生成AI。
- BardからGeminiに。使い方はどう変わる?日本語対応は?
- Bard(Gemini)が絵を描けるように。テキストから画像生成の方法。
- Bard(Gemini)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。
- 最新情報を日本語かつ無料で使いたいときは、GoogleのBard?
- ChatGPTとBardの違い。なぜAIは日本語チャットが苦手なの?
- Bard(Gemini)が日本語対応。ログイン方法や最新情報など、使い方の例。
- BardでGemini。Googleの最新AIを無料で使う方法。
- GoogleのBardは、OpenAIのChatGPTを越えられるだろうか?
Copilot、Bing 関連メモ。
- ChatGPTとCopilotの違い。料金や、できることと、できないこと。
- Copilotとは? GPT-4とDALL·E 3が無料で使える生成AI。
- SkypeのBingチャット。GPT-4を日本語かつ無料で使える。& 注意点。
- BingのGPT-4、チャットの使い方。使えない?(今はまだ。)
- MacでGPT-4(ChatGPT最新版)を使う場合、Edgeが必要なのかも。
Llama 関連メモ。
- Llama 3.1登場。MetaのオープンソースAIとダウンロードサイト。
- Meta Horizon OSとApple Vision Pro。オープンかクローズか。
- Llama 3。無料でオープンソースなMeta AI最新モデル。
- Llama(ラマ)の使い方や日本語は? ダウンロード手順とブラウザ実装サイト。