GPT-4o。ChatGPTと画像見ながら音声で会話？有料でも無料でも。 / メモ / いがわ

GPT-4o。ChatGPTと画像見ながら音声で会話？有料でも無料でも。

2024.05.14 2024.05.22更新。

Contents - 目次

1 GPT-4o。無料でも使えるChatGPT最新モデル。
2 GPT-4oの使い方の例。OpenAIのデモ動画。
3 GPT-4oによる画像認識の手順。（パソコンから。）
4 GPT-4oによるPDFファイルの文字認識の手順。（スマホから。）
5 GPT-4oによるPDFファイルの文字認識の手順。（パソコンから。）
6 GPTsやGPT Storeも無料開放へ。（制限あり。）
7 AI 関連メモ。

GPT-4o。無料でも使えるChatGPT最新モデル。

見て、読んで、聞いて、声で会話するChatGPT。

GPT-4oの紹介メッセージの画像。

音声会話が格段に飛躍。

ChatGPTが、文字・画像・音声などのトレーニングによる新たなニューラルネットワークの構築で、より自然な音声で会話ができるようになる。

感情表現ができ、バリエーションがあり、声の抑揚やトーンも変えられる。

YouTubeのデモを見る限りでは、人間のような声と抑揚のある話し方で、かつロボットの声のバリエーションも披露し、歌まで歌っている。

会話がほぼリアルタイムで可能。

音声入力には232ミリ秒（0.232秒）で応答し、平均応答時間は320ミリ秒（0.32秒）。これは人間の反応時間に近い速度。

ちなみにアスリートの最高峰のひとつである陸上短距離走の反応時間は、0.1秒が基準となっている。

（0.1秒未満の場合はフライング。）

これは人間の反応速度の限界が0.1秒とされているためであり、GPT-4oの反応速度はその限界値と0.1〜0.2秒程度の差で応答できることになるので、かなり速いことがわかる。

視覚の理解も向上。

GPT-4oは、既存のモデルと比較して、処理スピードが大幅に向上しており、特に視覚と音声の理解に優れているそう。

OpenAI社の公式のYouTube動画では、画像だけではなく動画もリアルタイムで認識している。

参照：OpenAI – YouTube

ChatGPTとボイスチャット。

Hello GPT-4o。

ChatGPTとの音声会話自体は2023年から無料のスマホアプリで可能になっており、今後はその性能アップに加え、画像や映像など視覚情報の理解の精度もまだまだ上がっていく余地がありそうな気配。

参照：Hello GPT-4o | OpenAI

OpenAIの、Terms of use（利用規約）。

利用規約については下記に記載あり。

参照： Terms of use（英語。ブラウザで翻訳可。）
参照：Usage policies（英語。ブラウザで翻訳可。）

ChatGPTの年齢制限。

使用するためには13歳以上、または住んでいる国で決められている最低年齢に達している必要がある。

18歳未満は、親または法定後見人の許可が必要とのこと。

参照： Terms of use（英語。ブラウザで翻訳可。）

GPT-4oの使い方の例。OpenAIのデモ動画。

ChatGPTとリアルタイムな翻訳。

英語でもスペイン語でもその他の言語でも。

映像が本当であれば、GPT-4oによりリアルタイムで翻訳され、音声で対話している。

すでに、50言語に対応しているとのこと。

使い方としては、「Hey ChatGPT」と話しかけるだけ。

（※一般向けのリリースは、数週間後からまず有料ユーザー向けとして提供される予定。）

言語のトークン化。

また、20言語が、さまざまな言語ファミリーにわたる新しいトークナイザーの圧縮を代表するものとして選択されたそう。

20言語の一覧を見ると、各言語のトークン数が圧縮されているので、今までよりもさらに最適化されたという感じだろうか。

ChatGPTと一緒に画像と動画を通じて音声で会話。

お父さんとChatGPTと一緒に。

数学の図形問題をChatGPTと一緒に解いていく。

こちらも動画でも、GPT-4oはリアルタイムで映像の中の画像を認識し、音声で答えている。

使い方としては、タッチパネルからの数度の操作。カメラは使用されていない模様。

GPT-4oによる画像認識の手順。（パソコンから。）

入力欄の左横にある「クリップ」のアイコンから。

メッセージ入力欄の左横の「クリップ」のアイコンをクリックする。

他の生成AIや、メールやソーシャルメディアなどと同じく、添付ファイルとして送る。

GPT-4oの画像認識の手順用の画像。

送りたい画像を選択する。

今回Mac環境から。猫が好きなのでダウンロードフォルダにあった猫の画像を選択。

Photo by Joe Cleary

GPT-4oの画像認識の手順用の画像。

メッセージと一緒に画像を送る。

GPT-4oの画像認識の手順用の画像。

ChatGPTが画像を認識し、説明をする。

GPT-4oの画像認識の手順用の画像。

もともとシンプルでわかりやすい画像だったが、回答に間違いはなかった。

GPT-4oによるPDFファイルの文字認識の手順。（スマホから。）

入力欄の左横にある「＋」のアイコンからアップロード。

メッセージ入力欄の左横の「＋」のアイコンをタップする。

送りたいPDFを選択する。

今回はダミーテキストのPDFを用意。

メッセージと一緒にPDFファイルを送る。

ダミーテキストのPDFを添付し、メッセージ欄からChatGPTへ送信。

ChatGPTがPDFファイル内の文字を認識し、説明をする。

こちらもダミーテキストでわかりやすいPDFだったが、回答に間違いはなかった。