喋るChatGPT。対面会話AI。Chat D-IDの不思議なAlice。ブログメモ デザイナー、コーチ、ディレクター|井川

igawa design.

Memo

喋るChatGPT。対面で会話するAI。Chat D-ID。

です・ます調の文章でなくてすみません。当初は個人的なメモ書きだったためです。

Chat D-IDとは?

声で会話をするChatGPT。

会話型チャットAIのChatGPTが、早くも喋り始めている。

D-ID社のサービス、喋るChatGPT。Chat D-IDのAliceの画像。

D-ID社のサービス、「Chat D-ID」のサイトを訪れると、「Alice」という名前の人間の女性のような顔立ちのAIが出迎えてくれる。

画像生成AIの「Stable Diffusion」と、会話型AI、文章作成AIの「ChatGPT」の技術が活用されているそうだ。

動き始めると人間ではないことがすぐにわかるが、静止状態ではぱっと見で区別がつかない。

昨年2022年あたりからの急速なAIの進化を考えると、来年再来年にはもしかしたら、ということも現実味を帯びてくる。


ChatGPTやStable Diffusionのクオリティ。

ChatGPTとStable Diffusionが、Chat D-IDへ。

2022年の後半あたりから、「ChatGPT(GPT-3)」や「Stable Diffusion」、「DALL·E」というAIを見聞きするようになった。

Chat D-IDのAliceは、2023年3月現在ではまだ人間ではないと察することができる。

GPT-4

追記)

ただし、とにかくここ数ヶ月のAI関連のスピード感はハンパない

この文章を書いた数時間後に、GPT-4が発表された。日本語での精度が上がり、テキストだけでなく画像入力ができるという。

参考:https://openai.com/research/gpt-4
(英語だがブラウザの翻訳機能で読める。現在のところ有料版のみ利用可能。)

検索エンジン「Bing」の方は、Microsoftの公式サイトによるとすでにGPT-4ベースとのこと。

参考:Microsoftのサイト

喋るAI Chat D-IDは、SiriやGoogle アシスタントとは次元が違う。

MacやiPhone、WindowsやAndroidはすでにある意味成熟した存在となっており、人々を驚かせるような新しいモデルはしばらく現れていない。

それらの最終形態的なデバイスよりも、新進気鋭のサードパーティ製のソフトウェアの方が急激に進歩している。

ソフトの方が内側から、ハードを追い抜きそうな勢いだ。

引用元:Chat D-ID

ディープラーニングは、どれくらいの数をしているのだろう。

世界の人口が約80億人であり、世界のサイト数が約5億〜20億サイトと想定した場合、例えば全ての人の顔の特徴や全てのWebサイトの情報をディープラーニングしたとしても、「数十億〜数百億」単位だろう。

人間の細胞の数や日本の国家予算、GAFAMの時価総額は「数十兆〜数百兆」なので、単純なイメージとして、意外と母数の少ないデータから学んでいるのかもしれない。

Chat D-IDのAliceは若い白人女性の顔をし、チャットができるが、ハリウッド女優のような演技をしたり、フィギュアスケーターのようにトリプルアクセルを飛んだりはしない。

AIの伸び代はまだまだある、とも言えるし、人間にはまだまだ足りないのでは、とも言える。


Chat D-IDは顔が動いて声で喋る。不思議なAI Alice。

動画と静止画。

映画やテレビ、YouTubeなどで見るいわゆる「動画」は、動画自体が動いているというわけではない。

「動画」は「パラパラ漫画」のように、1枚1枚の「静止画」からできている。

その「静止画」はひとつひとつの小さなピクセルと、RBGで指定された色と、X軸とY軸、Z軸などの位置情報などから構成されている。

映画なら1秒間に24コマ(フレーム)、テレビなら1秒間に30コマ(フレーム)という具合に、コマ送りされた「静止画」を見て、私たち人間は「動画」だと思って見ている。

実際には生身の人間のように連結しているわけではなく、1枚1枚が集まった連続画像である。

画面上では、人間もAIも数値化できる。

日常のように動いているモノを見ているのではなく、画面を通じて連続画像を見ることによって動いていると感じているのだ。

音声も同様だ。

写真よりも画像枚数の多い動画の方が、15秒間よりも長い30秒間の音声の方が、データの容量が多くなるのはそのためだ。

パソコンやスマホで動画の編集、作成をしてみるとその原理がわかる。

数値化できるので再現ができる。現実にはありえない、一時停止や巻き戻しもできる。

動画と静止画。タイムラインとフレーム。喋るChatGPT。対面会話AI。Chat D-IDもファイルでできている。

日常の中の自分と、ファイルの中のAlice。

今後日常的に、スマホやパソコンなどのデバイスを通じて、動いたり喋ったりする相手となるAIは増えるのだろう。

Aliceの容姿と音声はmp4形式のファイルからできているが、動きのぎこちなさは、現時点ではやはり違和感を感じる。

これが上記のような単なる静止画の枚数の少なさ、つまり「容量」の問題なのかはわからないが、いずれにしてもスムーズになっていくのだろう。

人間とAIとの共存、共栄。

また、AIがデバイスのカメラを通じて、自分の方を見て判断する、ということもありえるだろう。

そうなってくると、いよいよ人間とAIの見分け方が問題となってくる。

当然、慎重になるべき課題だと思う。

Friedrich Nietzsche(フリードリヒ・ニーチェ)が言ったように、「深淵をのぞく時、深淵もまたこちらをのぞいている」のだ。

喋るChatGPT。対面会話AI。Chat D-ID。人間とAIとの扉

Chat D-IDのアカウント作成。

Chat D-IDを利用するためにはメールなどでアカウント作成が必要とのこと。GoogleアカウントやLinkedInアカウントでも使える。

パソコンがCUIからGUIになって普及したように、AIもグラフィカルなインターフェイスとなっていくと思われる。

  • CUI:キャラクタユーザインタフェース、コマンドや文字列での操作。
  • GUI:グラフィカルユーザインタフェース、ウィンドウやアイコン、マウスなどでの操作。

喋るChatGPT。対面会話AI。Chat D-IDの不思議なAlice。

Chat D-IDは、自分で作成したAI画像も動かすことができる。

携帯なんか必要ない、スマホなんて使えない、と言われた時代はあっという間に過ぎていった。


AI 関連メモ。

Chat D-ID 関連メモ。
ChatGPT 関連メモ。
OpenAIのロゴ。
DALL·E 関連メモ。
Bard 関連メモ。
Googleのロゴ。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いています。(元々はメモ書きでしたので順次見直し、更新しています。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、購入素材、もしくは自前のものを使用しております。

デザイナー、ディレクター、講師、コーチ / 井川宜久

お問い合わせ CONTACT..

    免責事項について

    • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
    • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
    • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。

    個人情報について

    • 個人情報はお問い合わせやお客さま対応のみでの利用とさせていただいております。
    • こちらから営業目的でご連絡することはありません。
    • 法に基づいた理由がない限り、第三者へ開示することはありません。