Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。 / メモ / いがわ

Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。

2024.11.15 2024.12.19更新。

Google AI StudioのGemini 1.5 ProとGemini Experimentalについて。

Contents - 目次

1 Google AI StudioのGeminiとは？
2 Google AI StudioのGeminiの使い方。
3 Gemini 1.5 Pro 002にできること。
4 Gemini Experimental 1114にできること。
5 Gemini 2.0。
6 AI 関連メモ。

Google AI StudioのGeminiとは？

Google AI StudioのGeminiのモデル。

Geminiの最新モデルたち。

Google AI Studioのモデルに、「Gemini Experimental 1114」が登場。

Gemini 1.5 Proの最新版「Gemini 1.5 Pro 002」と同様に、無料ユーザーでも利用可能。

プレビュー版（試験運用）モデルとして、モデルのプルダウンメニューから選択できる。

（※バージョンアップなどで画面のデザインが変わっていることがあります。）

Google AI StudioのGeminiの画面。

Gemini Experimental 1121。

数日後、OpenAIのChatGPTのアップデート版が登場。Googleもさらに「Gemini Experimental 1121」をリリース。

Google AI StudioのURL。

普通のGeminiとAI StudioのGemini。

Google AI StudioのGeminiは、普通のGeminiとURLが異なっている。

UIも日本語対応されていないが、利用は日本語ででき、かつ無料で使用できる。

普通のGoogle Gemini：https://gemini.google.com
Google AI StudioのGemini：https://aistudio.google.com

Google AI StudioのGeminiの使い方。

Google AI StudioのGeminiまでの手順。

Google AI Studioへアクセス。

「Google AI Studio」で検索するか、下記のURLからサイトへ進む。

URL：https://aistudio.google.com

Google AI Studioのスクショ。

Googleアカウントでログイン。

画面左側にある青いボタン「Sign in to Google AI Studio」をクリックし、Googleアカウントでログイン（サインイン）する。

すでにGoogleへログインしている状態であれば、直接Google AI StudioのGeminiの画面となる。

Google AI StudioのGeminiの画面。

Geminiのモデルを選択。

画面右上にある「Medel（モデル）」のプルダウンメニューから選択する。

Gemini 1.5 Pro 002にできること。

Gemini 1.5 Proのアップデート版。

無料で200万トークンが利用できる。

Gemini 1.5 Pro 002は、画像や動画を生成するタイプではなく、テキスト関連に長けている。

画像や動画なども認識可能な、マルチモーダルAI。

画像、ビデオ、オーディオを理解することも可能。

（※画像認識の精度は高いが、ビデオとオーディオは誤認識もある。）

また、Python、C++、JavaScript、HTML、CSSなどのコーディングの補助もできる。

あるプログラム言語から、別の言語への変換も可能。

（※複雑なプロジェクトの開発や最新のフレームワークなどは不可。）

質問に答える。
文章を作成する。
翻訳をする。
要約をする。
アイデアを出す。
会話をする。
画像を認識する。
音声（音楽）を認識する。
動画を認識する。
コーディングをする。
デバッグをする。
など。

マルチモーダルの機能について。

画像認識の例。

試しに寿命を迎えたパナソニックのLED電球についてを確認。

テキストがあったこともあり、正解だった。

記載がされていない、口径のサイズ（E26）までは認識されていない。

Geminiによる画像認識のスクショ。

音声認識の例。

U2の音楽については、なぜかRADWIMPSと間違えていた。曲のタイトルも違う。

Geminiによる音声認識のスクショ。

動画認識の例。

容量の問題なのか、動画認識がうまくいかないこともある。

野生のうさぎであることは間違いなし。

ただし、水面はない。

周囲の景色と同じような色で擬態のようになっており、かつ被写体のうさぎが小さかったためだと思われる。

学習データの不足や、擬態によりうさぎと背景の色や質感が似ているため、ニューラルネットワーク内での関連付けが難しいのかもしれない。

Geminiによる画像認識のスクショ。

Gemini Experimental 1114にできること。

Gemini史上、最高レベルの能力。

無料で使用ができ、精度が高い。

Gemini Experimental 1114も、画像や動画を生成するタイプではなく、画像認識や動画認識、テキスト関連やコーディング関連に長けている。

試験運用中でもあり、トークン数は少ない。

AIの能力を測るいわゆる「ベンチマーク」では、現時点での世界総合1位とのこと。

※2024.11.22追記）

OpenAIから「GPT-4o-2024-11-20」の発表あり。ChatGPTの最新バージョンが、世界総合1位に。

その直後、Googleが「Gemini Experimental 1121」をリリース。再逆転の可能性あり。

質問に答える。
文章を作成する。
翻訳をする。
要約をする。
アイデアを出す。
会話をする。
画像を認識する。
音声（音楽）を認識する。
動画を認識する。
コーディングをする。
デバッグをする。
など。

知識の幅が広い。

歴史、科学、文化、時事問題など、幅広い分野をカバーしており、複数の言語を翻訳できる。

長い文章の要約や、重要ポイントの抽出も可能。

ブレインストーミングの手伝いや、新しいアイデアの提案などを、自然な会話で行うことができる。