Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。 / いがわ

.

Memo

Gemini 1.5 Pro 002とGemini Experimental 1114について。

Google AI StudioのGeminiとは?

Google AI StudioのGeminiのモデル。

Geminiの最新モデルたち。

Google AI Studioのモデルに、「Gemini Experimental 1114」が登場。

Gemini 1.5 Proの最新版「Gemini 1.5 Pro 002」と同様に、無料ユーザーでも利用可能。

プレビュー版(試験運用)モデルとして、モデルのプルダウンメニューから選択できる。

バージョンアップなどで画面のデザインが変わっていることがあります。)

Google AI StudioのGeminiの画面。

Google AI StudioのURL。

普通のGeminiとAI StudioのGemini。

Google AI StudioのGeminiは、普通のGeminiとURLが異なっている。

UIも日本語対応されていないが、利用は日本語ででき、かつ無料で使用できる。


Google AI StudioのGeminiの使い方。

Google AI StudioのGeminiまでの手順。

Google AI Studioへアクセス。

「Google AI Studio」で検索するか、下記のURLからサイトへ進む。

URL:https://aistudio.google.com

Google AI Studioのスクショ。

Googleアカウントでログイン。

画面左側にある青いボタン「Sign in to Google AI Studio」をクリックし、Googleアカウントでログイン(サインイン)する。

Google AI StudioのGeminiの画面。

Geminiのモデルを選択。

画面右上にある「Medel(モデル)」のプルダウンメニューから選択する。

Google AI StudioのGeminiの画面。

Gemini 1.5 Pro 002にできること。

Gemini 1.5 Proのアップデート版。

無料で200万トークンが利用できる。

画像や動画を生成するタイプではなく、テキスト関連に長けている。

画像や動画なども認識可能な、マルチモーダルAI。

画像、ビデオ、オーディオを理解することも可能。

画像認識の精度は高いが、ビデオとオーディオは誤認識もある。)

また、Python、C++、JavaScript、HTML、CSSなどのコーディングの補助もできる。

あるプログラム言語から、別の言語への変換も可能。

複雑なプロジェクトの開発や最新のフレームワークなどは不可。)

  • 質問に答える。
  • 文章を作成する。
  • 翻訳をする。
  • 要約をする。
  • アイデアを出す。
  • 会話をする。
  • 画像を認識する。
  • 音楽(音声)を認識する。
  • 動画を認識する。
  • コーディングをする。
  • デバッグをする。
  • など。

マルチモーダルの機能について。

画像認識の例。

パナソニックのLED電球については、テキストもあったためもあり、正解だった。

Geminiによる画像認識のスクショ。

動画認識の例。

U2の音楽については、なぜかRADWIMPSと間違えていた。

Geminiによる音声認識のスクショ。

動画認識の例。

容量の問題なのか、動画認識がうまくいかないこともある。

野生のうさぎであることは間違いなし。ただし、水面はない。

周囲の景色と同じような色で擬態のようになっており、かつ被写体のうさぎが小さかったためだと思われる。

Geminiによる画像認識のスクショ。


Gemini Experimental 1114にできること。

Gemini史上、最高レベルの能力。

無料で使用ができ、精度が高い。

こちらも画像や動画を生成するタイプではなく、画像認識や動画認識、テキスト関連やコーディング関連に長けている。

AIの能力を測るいわゆる「ベンチマーク」では、現時点での世界総合1位とのこと。

試験運用中でもあり、トークン数は少ない。)

  • 質問に答える。
  • 文章を作成する。
  • 翻訳をする。
  • 要約をする。
  • アイデアを出す。
  • 会話をする。
  • 画像を認識する。
  • 音楽(音声)を認識する。
  • 動画を認識する。
  • コーディングをする。
  • デバッグをする。
  • など。
知識の幅が広い。

歴史、科学、文化、時事問題など、幅広い分野をカバーしており、複数の言語を翻訳できる。

長い文章の要約や、重要ポイントの抽出も可能。

ブレインストーミングの手伝いや、新しいアイデアの提案などを、自然な会話で行うことができる。

マルチモーダルの機能について。

画像認識の例。

パナソニックのLED電球については、項目別に分けられ、詳しい説明がされている。

Geminiによる画像認識のスクショ。

動画認識の例。

こちらはエラーとなってしまった。容量が80MB以上あったので、6MBまで圧縮しても、同じエラーだった。

Gemini Experimental 1114による動画認識のスクショ。

画像生成のお願いが文章生成へ。

無理を承知で「子猫が遊んでいる画像を生成してください。」とお願いしたところ、下記の文章がほんの数秒で生成された。

Gemini Experimental 1114の生成文章のスクショ。

生成された文章。

『ふわふわの柔らかい毛並みを持つ小さな子猫が、太陽の光が差し込む部屋の中で元気に遊んでいます。子猫は、小さなおもちゃのボールを追いかけて、軽やかに部屋の中を走り回っています。時々、ボールに飛びついて、小さな手で器用に転がしたり、くわえて得意げに運んだりしています。

好奇心旺盛な子猫は、部屋の中にあるものすべてに興味津々。カーテンの揺れにじゃれたり、床に落ちている紐を追いかけたりと、遊びは尽きません。遊び疲れると、日当たりの良い場所で丸くなって、気持ちよさそうにうたた寝を始めます。』

Gemini 1.5 Pro 002とGemini Experimental 1114のモデル猫。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。