Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。 / いがわ

.

Memo

Google AI StudioのGemini 1.5 ProとGemini Experimentalについて。

Google AI StudioのGeminiとは?

Google AI StudioのGeminiのモデル。

Geminiの最新モデルたち。

Google AI Studioのモデルに、「Gemini Experimental 1114」が登場。

Gemini 1.5 Proの最新版「Gemini 1.5 Pro 002」と同様に、無料ユーザーでも利用可能。

プレビュー版(試験運用)モデルとして、モデルのプルダウンメニューから選択できる。

バージョンアップなどで画面のデザインが変わっていることがあります。)

Google AI StudioのGeminiの画面。

Gemini Experimental 1121。

数日後、OpenAIのChatGPTのアップデート版が登場。Googleもさらに「Gemini Experimental 1121」をリリース。

Google AI StudioのURL。

普通のGeminiとAI StudioのGemini。

Google AI StudioのGeminiは、普通のGeminiとURLが異なっている。

UIも日本語対応されていないが、利用は日本語ででき、かつ無料で使用できる。


Google AI StudioのGeminiの使い方。

Google AI StudioのGeminiまでの手順。

Google AI Studioへアクセス。

「Google AI Studio」で検索するか、下記のURLからサイトへ進む。

URL:https://aistudio.google.com

Google AI Studioのスクショ。

Googleアカウントでログイン。

画面左側にある青いボタン「Sign in to Google AI Studio」をクリックし、Googleアカウントでログイン(サインイン)する。

Google AI StudioのGeminiの画面。

すでにGoogleへログインしている状態であれば、直接Google AI StudioのGeminiの画面となる。

Google AI StudioのGeminiの画面。

Geminiのモデルを選択。

画面右上にある「Medel(モデル)」のプルダウンメニューから選択する。

Google AI StudioのGeminiの画面。

Gemini 1.5 Pro 002にできること。

Gemini 1.5 Proのアップデート版。

無料で200万トークンが利用できる。

Gemini 1.5 Pro 002は、画像や動画を生成するタイプではなく、テキスト関連に長けている。

画像や動画なども認識可能な、マルチモーダルAI。

画像、ビデオ、オーディオを理解することも可能。

画像認識の精度は高いが、ビデオとオーディオは誤認識もある。)

また、Python、C++、JavaScript、HTML、CSSなどのコーディングの補助もできる。

あるプログラム言語から、別の言語への変換も可能。

複雑なプロジェクトの開発や最新のフレームワークなどは不可。)

  • 質問に答える。
  • 文章を作成する。
  • 翻訳をする。
  • 要約をする。
  • アイデアを出す。
  • 会話をする。
  • 画像を認識する。
  • 音声(音楽)を認識する。
  • 動画を認識する。
  • コーディングをする。
  • デバッグをする。
  • など。

マルチモーダルの機能について。

画像認識の例。

パナソニックのLED電球については、テキストもあったためもあり、正解だった。

記載されていない口径のサイズ(E26)までは、認識されていない。

Geminiによる画像認識のスクショ。

音声認識の例。

U2の音楽については、なぜかRADWIMPSと間違えていた。曲のタイトルも違う。

Geminiによる音声認識のスクショ。

動画認識の例。

容量の問題なのか、動画認識がうまくいかないこともある。

野生のうさぎであることは間違いなし。

ただし、水面はない。

周囲の景色と同じような色で擬態のようになっており、かつ被写体のうさぎが小さかったためだと思われる。

Geminiによる画像認識のスクショ。


Gemini Experimental 1114にできること。

Gemini史上、最高レベルの能力。

無料で使用ができ、精度が高い。

Gemini Experimental 1114も、画像や動画を生成するタイプではなく、画像認識や動画認識、テキスト関連やコーディング関連に長けている。

試験運用中でもあり、トークン数は少ない。

AIの能力を測るいわゆる「ベンチマーク」では、現時点での世界総合1位とのこと。

2024.11.22追記)

OpenAIから「GPT-4o-2024-11-20」の発表あり。ChatGPTの最新バージョンが、世界総合1位に。

その直後、Googleが「Gemini Experimental 1121」をリリース。再逆転の可能性あり。

  • 質問に答える。
  • 文章を作成する。
  • 翻訳をする。
  • 要約をする。
  • アイデアを出す。
  • 会話をする。
  • 画像を認識する。
  • 音声(音楽)を認識する。
  • 動画を認識する。
  • コーディングをする。
  • デバッグをする。
  • など。
知識の幅が広い。

歴史、科学、文化、時事問題など、幅広い分野をカバーしており、複数の言語を翻訳できる。

長い文章の要約や、重要ポイントの抽出も可能。

ブレインストーミングの手伝いや、新しいアイデアの提案などを、自然な会話で行うことができる。

マルチモーダルの機能について。

画像認識の例。

パナソニックのLED電球については、項目別に分けられ、詳しい説明ができている。

こちらも口径のサイズ(E26)までは認識されていない。

Geminiによる画像認識のスクショ。

動画認識の例。

こちらはエラーとなってしまった。容量が80MB以上あったので、6MBまで圧縮しても、同じエラーだった。

Gemini Experimental 1114による動画認識のスクショ。

画像生成のお願いが文章生成へ。

無理を承知で「子猫が遊んでいる画像を生成してください。」とお願いしたところ、下記の文章がほんの数秒で生成された。

Gemini Experimental 1114の生成文章のスクショ。

生成された文章。

『ふわふわの柔らかい毛並みを持つ小さな子猫が、太陽の光が差し込む部屋の中で元気に遊んでいます。子猫は、小さなおもちゃのボールを追いかけて、軽やかに部屋の中を走り回っています。時々、ボールに飛びついて、小さな手で器用に転がしたり、くわえて得意げに運んだりしています。

好奇心旺盛な子猫は、部屋の中にあるものすべてに興味津々。カーテンの揺れにじゃれたり、床に落ちている紐を追いかけたりと、遊びは尽きません。遊び疲れると、日当たりの良い場所で丸くなって、気持ちよさそうにうたた寝を始めます。』


Gemini 2.0。

Gemini 2.0について。

Gemini 2.0は、試験運用と並行進行中。
2024.12.19 追記)

Gemini Advancedユーザー向けに、「Gemini 2.0 Experimental Advanced」がリリース。

「Deep Research」機能により、AIがネット検索をして、ユーザーの代わりにレポート作成もできるとのこと。

Project Astraによる、映像の確認。

Project Astraによって、スマホカメラで見ている映像について、AI アシスタントのGeminiアプリに、テキストだけでなく音声でも質問することができる。

他言語対応なので、海外旅行時などにも利用可能。

現時点では、待機リストへ登録したテスター向け。)

Project Marinerによる、タスクの支援。

Chromeの拡張機能を使用したGoogle検索によってウェブ上の情報を使用し、ユーザーの代わりにタスクを支援、完了するこのこと。

現時点では、試験運用中。)

参照元:Gemini 2.0: エージェント時代に向けた新しい AI モデル

また、無料ユーザーは、「Gemini 2.0 Flash」がGoogle AI Studioから使用可能。

Gemini 2.0 Flashは、Googleアカウントがあれば、ログインしてすぐに使うことができる。

Gemini 2.0 Flashも、試験運用版。)

Gemini 1.5 Pro 002とGemini Experimental 1114のモデル猫。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。