GPT-4o。ChatGPTと画像見ながら音声で会話?有料でも無料でも。デザイナー、コーチ、ディレクター / いがわ

.

Memo

チャットGPT最新GPT-4oの使い方。音声会話や画像、ファイル認識も。

GPT-4o。文字、画像、音声から学習した最新モデル。

見て、読んで、聞いて、声で会話するChatGPT。

音声会話が格段に飛躍。

ChatGPTが、文字・画像・音声などのトレーニングによる新たなニューラルネットワークの構築で、より自然な音声で会話ができるようになる。

感情表現ができ、バリエーションがあり、声の抑揚やトーンも変えられる。

YouTubeのデモを見る限りでは、人間のような声と抑揚のある話し方で、かつロボットの声のバリエーションも披露し、歌まで歌っている。

会話がほぼリアルタイムで可能。

音声入力には232ミリ秒(0.232秒)で応答し、平均応答時間は320ミリ秒(0.32秒)。これは人間の反応時間に近い速度。

ちなみにアスリートの最高峰のひとつである陸上短距離走の反応時間は、0.1秒が基準となっている。

(0.1秒未満の場合はフライング。)

これは人間の反応速度の限界が0.1秒とされているためであり、GPT-4oの反応速度はその限界値と0.1〜0.2秒程度の差で応答できることになるので、かなり速いことがわかる。

視覚の理解も向上。

GPT-4oは、既存のモデルと比較して、処理スピードが大幅に向上しており、特に視覚と音声の理解に優れているそう。

OpenAI公式のYouTube動画では、画像だけではなく動画もリアルタイムで認識している。

GPT-4o。ChatGPTと音声で会話?有料でも無料でも。

ChatGPTと音声で会話。

Hello GPT-4o。

ChatGPTとの音声会話自体は2023年から無料のスマホアプリで可能になっており、今後はその性能アップに加え、画像や映像など視覚情報の理解の精度もまだまだ上がっていく余地がありそうな気配。

参照:Hello GPT-4o | OpenAI


GPT-4oの使い方の例。OpenAIのデモ動画。

ChatGPTとリアルタイムな翻訳。

英語でもスペイン語でもその他の言語でも。

映像が本当であれば、GPT-4oによりリアルタイムで翻訳され、音声で対話している。

すでに、50言語に対応しているとのこと。

使い方としては、「Hey ChatGPT」と話しかけるだけ。

言語のトークン化。

また、20言語が、さまざまな言語ファミリーにわたる新しいトークナイザーの圧縮を代表するものとして選択されたそう。

20言語の一覧を見ると、各言語のトークン数が圧縮されているので、今までよりもさらに最適化されたという感じだろうか。

ChatGPTと一緒に画像と動画を通じて音声で会話。

お父さんとChatGPTと一緒に。

数学の図形問題をChatGPTと一緒に解いていく。

こちらも動画でも、GPT-4oはリアルタイムで映像の中の画像を認識し、音声で答えている。

使い方としては、タッチパネルからの数度の操作。カメラは使用されていない模様。


GPT-4oによる画像認識の手順。(パソコンから。)

入力欄の左横にある「クリップ」のアイコンから。

メッセージ入力欄の左横の「クリップ」のアイコンをクリックする。

他の生成AIや、メールやソーシャルメディアなどと同じく、添付ファイルとして送る。

GPT-4oの画像認識の手順用の画像。

送りたい画像を選択する。

今回Mac環境から。猫が好きなのでダウンロードフォルダにあった猫の画像を選択。

Photo by Joe Cleary

GPT-4oの画像認識の手順用の画像。

メッセージと一緒に画像を送る。

GPT-4oの画像認識の手順用の画像。

ChatGPTが画像を認識し、説明をする。

GPT-4oの画像認識の手順用の画像。

もともとシンプルでわかりやすい画像だったが、回答に間違いはなかった。


GPT-4oによるPDFファイルの文字認識の手順。(スマホから。)

入力欄の左横にある「+」のアイコンからアップロード。

メッセージ入力欄の左横の「+」のアイコンをタップする。

GPT-4oの文字認識の手順用の画像。

送りたいPDFを選択する。

今回はダミーテキストのPDFを用意。

メッセージと一緒にPDFファイルを送る。

ダミーテキストのPDFを添付し、メッセージ欄からChatGPTへ送信。

ChatGPTがPDFファイル内の文字を認識し、説明をする。

GPT-4oの文字認識の手順用の画像。

こちらもダミーテキストでわかりやすいPDFだったが、回答に間違いはなかった。


GPTsやGPT Storeもすべて。

GPT-4oの「o」は、omni(オムニ)の「o」。

GPT-4oの読み方。

GPT-4oの読み方は、は「ジーピーティー・フォー・オー」。

omniとは?

ラテン語の「omnis」が語源と言われる「omni」は、「全ての」や「あらゆる」という意味を持つ、英語でのallのような接頭辞。

意図的なのかはわからないが、「GPT-4o」というネーミングは、文字を見ても発音を聞いても、「GPT for all(GPTをみんなへ。)」という言葉へつなげられる。

GPT-4V 2 GPT-4o。

画像認識の際の「GPT-4V」もそうだったように、「全て」の意味が文字認識、画像認識、音声認識などのマルチモーダルの意味合いだけにおさまらない。

GPT-4VからGPT-4oへ。

技術やデザイン面だけではなく、こういうところにもセンスが感じられる。

GPT-4レベルが誰でも利用可能に。(制限はあり。)

GPT for omni。

今後数週間以内に有料ユーザー向けの「ChatGPT Plus」へのアルファ版から公開され、ChatGPT Plusユーザーはメッセージ制限が最大5倍になる。

ChatGPTを、有料ユーザーから無料ユーザーまで。

GPT for all。

有料ユーザーだけでなく、GPT-4レベルのモデルやサービスをより広範囲に利用できるよう、無料ユーザーへも提供される。

たとえばWordPressのように。

GPTsやGPT Storeも。

有料ユーザー向けサービスである、ChatGPTをカスタマイズする「GPTs」や「GPT Store」も、無料ユーザーが利用できるようになる。

世界中のWebサイトの約40%に使用されていると言われる「WordPress」は、個人のブログからアメリカのホワイトハウスまで利用されている。

WordPress本体や、そのためのテーマやプラグインのように、有料・無料含め様々なニーズに対応した展開が期待される。

その他も無料で利用できるようになるかも。

ChatGPT Plusの無料ユーザーへの提供。

有料プランである「ChatGPT Plus」の多くの機能が、無料ユーザーにも提供される予定。

制限がある可能性は高いが、以下のようなサービスの利用が想定される。

  • GPT-3.5の上位モデルの「GPT-4」や「GPT-4o」の利用。
  • ブラウジング機能(インターネット検索)。
  • ファイルのアップロードと認識。(画像や動画、音声、PDF、CSV、Word、Excelなどのファイル。)
  • 画像の生成。
  • 会話内容を記憶、活用するMemory(メモリー)機能。

GPT-4o。チャットGPTを見上げる猫。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。
DALL·E 関連メモ。
Sora 関連メモ。
Gemini 関連メモ。
Copilot、Bing 関連メモ。
Llama 関連メモ。

免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。