Contents - 目次
GPT-4o。無料でも使えるChatGPT最新モデル。
見て、読んで、聞いて、声で会話するChatGPT。
音声会話が格段に飛躍。
ChatGPTが、文字・画像・音声などのトレーニングによる新たなニューラルネットワークの構築で、より自然な音声で会話ができるようになる。
感情表現ができ、バリエーションがあり、声の抑揚やトーンも変えられる。
YouTubeのデモを見る限りでは、人間のような声と抑揚のある話し方で、かつロボットの声のバリエーションも披露し、歌まで歌っている。
会話がほぼリアルタイムで可能。
音声入力には232ミリ秒(0.232秒)で応答し、平均応答時間は320ミリ秒(0.32秒)。これは人間の反応時間に近い速度。
ちなみにアスリートの最高峰のひとつである陸上短距離走の反応時間は、0.1秒が基準となっている。
(0.1秒未満の場合はフライング。)
これは人間の反応速度の限界が0.1秒とされているためであり、GPT-4oの反応速度はその限界値と0.1〜0.2秒程度の差で応答できることになるので、かなり速いことがわかる。
視覚の理解も向上。
GPT-4oは、既存のモデルと比較して、処理スピードが大幅に向上しており、特に視覚と音声の理解に優れているそう。
OpenAI社の公式のYouTube動画では、画像だけではなく動画もリアルタイムで認識している。
ChatGPTとボイスチャット。
Hello GPT-4o。
ChatGPTとの音声会話自体は2023年から無料のスマホアプリで可能になっており、今後はその性能アップに加え、画像や映像など視覚情報の理解の精度もまだまだ上がっていく余地がありそうな気配。
GPT-4oの使い方の例。OpenAIのデモ動画。
ChatGPTとリアルタイムな翻訳。
英語でもスペイン語でもその他の言語でも。
映像が本当であれば、GPT-4oによりリアルタイムで翻訳され、音声で対話している。
すでに、50言語に対応しているとのこと。
使い方としては、「Hey ChatGPT」と話しかけるだけ。
(※一般向けのリリースは、数週間後からまず有料ユーザー向けとして提供される予定。)
言語のトークン化。
また、20言語が、さまざまな言語ファミリーにわたる新しいトークナイザーの圧縮を代表するものとして選択されたそう。
20言語の一覧を見ると、各言語のトークン数が圧縮されているので、今までよりもさらに最適化されたという感じだろうか。
ChatGPTと一緒に画像と動画を通じて音声で会話。
お父さんとChatGPTと一緒に。
数学の図形問題をChatGPTと一緒に解いていく。
こちらも動画でも、GPT-4oはリアルタイムで映像の中の画像を認識し、音声で答えている。
使い方としては、タッチパネルからの数度の操作。カメラは使用されていない模様。
GPT-4oによる画像認識の手順。(パソコンから。)
入力欄の左横にある「クリップ」のアイコンから。
メッセージ入力欄の左横の「クリップ」のアイコンをクリックする。
他の生成AIや、メールやソーシャルメディアなどと同じく、添付ファイルとして送る。
送りたい画像を選択する。
今回Mac環境から。猫が好きなのでダウンロードフォルダにあった猫の画像を選択。
Photo by Joe Cleary
メッセージと一緒に画像を送る。
ChatGPTが画像を認識し、説明をする。
もともとシンプルでわかりやすい画像だったが、回答に間違いはなかった。
GPT-4oによるPDFファイルの文字認識の手順。(スマホから。)
入力欄の左横にある「+」のアイコンからアップロード。
メッセージ入力欄の左横の「+」のアイコンをタップする。
送りたいPDFを選択する。
今回はダミーテキストのPDFを用意。
メッセージと一緒にPDFファイルを送る。
ダミーテキストのPDFを添付し、メッセージ欄からChatGPTへ送信。
ChatGPTがPDFファイル内の文字を認識し、説明をする。
こちらもダミーテキストでわかりやすいPDFだったが、回答に間違いはなかった。
GPT-4oによるPDFファイルの文字認識の手順。(パソコンから。)
入力欄の左横にある「クリップ」のアイコンから。
メッセージ入力欄の左横の「クリップ」のアイコンをクリックする。
手順は、上記と同様。
送りたいPDFを選択する。
ダミーテキストでは簡単すぎたようなので、Adobe社が配布しているIllustratorのキーボードショートカットのPDFファイルを選択。
ChatGPTがPDFファイル内の文字を認識し、説明をする。
Adobe IllustratorのショートカットキーリストのPDFファイルであることは認識している。
GPT-4oが自主的に「主要なポイント」をまとめてくれているが、よく見るとおかしな点がある。
少なくとも、以下の4つはPDFには記載されておらず、かつ間違った内容も出力していた。
- PDFには記載されていない、「背面へペースト」を出力している。(ショートカットは正しい。)
- PDFには記載されていない、「ガイドを作成」を出力している。(ショートカットも間違い。)
- PDFには記載されていない、「アンカーポイントの追加」を出力している。(ショートカットも間違い。)
- PDFには記載されていない、「アンカーポイントの削除」を出力している。(ショートカットも間違い。)
テキスト同様、ChatGPTの回答は必ずしも正しいとは限らないということ。
ペラ一枚のPDFの認識でも誤りがあり、記載されていないものを回答するということは、必ずしも「見て」はいないということになる。
お仕事などで使う場合は、まだ人間によるチェックをした方が無難。
(※ChatGPTへのメッセージ入力欄の下に注意書きがされているように。)
GPTsやGPT Storeも無料開放へ。(制限あり。)
GPT-4oの「o」は、omni(オムニ)の「o」。
GPT-4oの読み方。
GPT-4oの読み方は、は「ジーピーティー・フォー・オー」。
omniとは?
ラテン語の「omnis」が語源と言われる「omni」は、「全ての」や「あらゆる」という意味を持つ、英語でのallのような接頭辞。
意図的なのかはわからないが、「GPT-4o」というネーミングは、文字を見ても発音を聞いても、「GPT for all(GPTをみんなへ。)」という言葉へつなげられる。
GPT-4V 2 GPT-4o。
画像認識の際の「GPT-4V」もそうだったように、「全て」の意味が文字認識、画像認識、音声認識などのマルチモーダルの意味合いだけにおさまらない。
GPT-4VからGPT-4oへ。
技術やデザイン面だけではなく、こういうところにもセンスが感じられる。
GPT-4レベルが誰でも利用可能に。(制限はあり。)
GPT for omni。
今後数週間以内に有料ユーザー向けの「ChatGPT Plus」へのアルファ版から公開され、ChatGPT Plusユーザーはメッセージ制限が最大5倍になる。
ChatGPTを、有料ユーザーから無料ユーザーまで。
GPT for all。
有料ユーザーだけでなく、GPT-4レベルのモデルやサービスをより広範囲に利用できるよう、無料ユーザーへも提供される。
たとえばWordPressのように。
GPTsやGPT Storeも。
有料ユーザー向けサービスである、ChatGPTをカスタマイズする「GPTs」や「GPT Store」も、無料ユーザーが利用できるようになる。
世界中のWebサイトの約40%に使用されていると言われる「WordPress」は、個人のブログからアメリカのホワイトハウスまで利用されている。
WordPress本体や、そのためのテーマやプラグインのように、有料・無料含め様々なニーズに対応した展開が期待される。
その他も無料で利用できるようになるかも。
ChatGPT Plusの無料ユーザーへの提供。
有料プランである「ChatGPT Plus」の多くの機能が、徐々に無料ユーザーにも提供される予定。
制限がある可能性は高いが、以下のようなサービスが想定される。
- GPT-3.5の上位モデルの「GPT-4」や「GPT-4o」の利用。
- ブラウジング機能(インターネット検索)。
- ファイルのアップロードと認識。(画像や動画、音声、PDF、CSV、Word、Excelなどのファイル。)
- 画像の生成。
- 会話内容を記憶、活用するMemory(メモリー)機能。
以上、参考になれば幸いです。
※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。
AI 関連メモ。
ChatGPT 関連メモ。
- ChatGPT searchとは?使い方や、有料と無料、Googleとの違い。
- Chrome拡張機能、ChatGPT searchの使い方。自然言語、日常会話で検索。
- ChatGPTに検索機能。ChatGPT searchでWeb検索が可能に。
- MacとWindowsでもChatGPTと音声会話。Advanced Voiceが利用可能に。
- Advanced Voiceによる音声会話。ChatGPTとプラトニックな関係に?
- OpenAI o1の使い方。考えてから答える新しいChatGPTモデル。
- Voice Engineという名の、音声合成技術。日本語の精度は?
- SearchGPT。ChatGPTがAI検索エンジンに。使い方の例と順番待ちへの登録方法。
- GPT-4o miniが登場。ChatGPT無料版はGPT-3.5からバージョンアップ。
- ChatGPT無料ユーザーにもメモリ機能が。記憶や使い方の例。
- iPhoneやiPad、MacでChatGPT(GTP-4o)が。Apple Intelligence。
- 生成AIとWebデザイン、ChatGPTを活用したコーディングに必要なもの。
- ChatGPT最新モデル GPT-4oが無料でも。使える主な機能。
- ChatGPT(GPT-4o)で、PDF要約の精度を検証した結果。
- GPT-4o。ChatGPTと画像見ながら音声で会話?有料でも無料でも。
- ChatGPT無料版でも画像生成が可能に。有料版だけじゃない!?
- ChatGPT(チャットGPT)にアーカイブ機能が。復元も削除も。
- ChatGPT(チャットGPT)を日本語化。日本語設定の方法。
- ChatGPT(チャットGPT)との音声会話と、音声の変更方法。
- ChatGPTアプリのインストールとログイン方法、チャットの使い方。
- ChatGPT(チャットGPT)のスペルチェック、文章校正がむっちゃ楽。
- ChatGPT(チャットGPT)へのログイン方法。ログインできないとき。
- ChatGPTにプラグイン。広がる機能と使い方。最新情報へも。
- ChatGPTがLINEに?「AIチャットくん」の始め方、そして使い方。
- ChatGPTの始め方と使い方と。初心者向けシンプル版。
- ChatGPTはSVGアイコンを作れるのか?
- ChatGPTの文章作成やコーディング、SEO対策は変わるか?
DALL·E 関連メモ。
Sora 関連メモ。
- OpenAI Soraの短編映画。アーティストや映画制作者たち。
- OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
- OpenAIからSora(動画生成AI)が広がる。デモやWebCMから一般公開へ。
Gemini 関連メモ。
- Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。
- Gemini 1.5 Pro 2Mモデル。Waitlistの登録手順。日本語上手なGoogle生成AI。
- BardからGeminiに。使い方はどう変わる?日本語対応は?
- Bard(Gemini)が絵を描けるように。テキストから画像生成の方法。
- Bard(Gemini)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。
- 最新情報を日本語かつ無料で使いたいときは、GoogleのBard?
- ChatGPTとBardの違い。なぜAIは日本語チャットが苦手なの?
- Bard(Gemini)が日本語対応。ログイン方法や最新情報など、使い方の例。
- BardでGemini。Googleの最新AIを無料で使う方法。
- GoogleのBardは、OpenAIのChatGPTを越えられるだろうか?
Copilot、Bing 関連メモ。
- ChatGPTとCopilotの違い。料金や、できることと、できないこと。
- Copilotとは? GPT-4とDALL·E 3が無料で使える生成AI。
- SkypeのBingチャット。GPT-4を日本語かつ無料で使える。& 注意点。
- BingのGPT-4、チャットの使い方。使えない?(今はまだ。)
- MacでGPT-4(ChatGPT最新版)を使う場合、Edgeが必要なのかも。
Llama 関連メモ。
- Llama 3.1登場。MetaのオープンソースAIとダウンロードサイト。
- Meta Horizon OSとApple Vision Pro。オープンかクローズか。
- Llama 3。無料でオープンソースなMeta AI最新モデル。
- Llama(ラマ)の使い方や日本語は? ダウンロード手順とブラウザ実装サイト。