OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。 / いがわ

.

Memo

Soraの仕組みと、OpenAIの公開デモ。

Soraの仕組みと一般公開されたデモ動画。

Soraのデモ動画:ゴールドラッシュ – Gold Rush
空撮されたような、カリフォルニアのゴールドラッシュ。

19世紀のカリフォルニアの街、川を中心に木造建築物と馬に乗った人々が住む街を、空からドローンで撮影したように生成された動画。

画質はあえて古いカラー映画のようにしたようで、ぱっと見、実写の映画と見分けがつかない。

つまり、実写の映像から学習している可能性が想定される。

Prompt(プロンプト): クリックで表示されます。
「Historical footage of California during the gold rush.」
「日本語訳:ゴールドラッシュ時代のカリフォルニアの歴史的な映像。」

引用元:https://openai.com/sora


Soraの仕組みと解説。

画像データと動画データ。
画像データとは?

画像の仕組みはピクセルの集合体。

基本的にピクセルの位置はX軸とY軸、奥行きのある3Dの場合はZ軸で指定でき、色はRGB(赤・緑・青)の混ぜ合わせで表現できる。

印刷の場合はドットの集合体。色はCMYK(シアン・マゼンタ・イエロー・ブラック)の混色で表現される。)

動画データとは?

動画の仕組みは連続画像の集合体。

基本的に「パラパラマンガ」のイメージで、1秒間の画像枚数を「FPS(Frame per Second)」という単位で決められる。

例えば一般的な日本のテレビの場合は「30fps」、一般的な映画の場合は「24fps」となっている。

つまり、テレビは1秒間に30枚の画像、映画は1秒間に24枚の画像が使われている。

Soraの動画の時間と画像の枚数。

Soraは最大60秒の動画を生成できるので、1秒間の枚数(フレームレート)を30fpsとした場合、30 × 60 = 1,800枚となる。

マンガがアニメ化されるときに漫画家自身が描かないのは、現実的にひとりでは描けない量を必要とするという側面もある。

画像データとパッチ化。
ビジュアルデータをパッチ化
– Turning visual data into patches

Soraは、ビジュアルデータをパッチ化しているとのこと。

OpenAIによる、ビジュアルデータのパッチ化の説明画像。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

パケットやトークンのような感じで。

通信量パケ放題の「パケット」や、ChatGPTの「トークン」のように、画像のデータを一旦まとめて(パッチ化して)、単位のように扱っている模様。

トークンとは?

ChatGPTやGemini、CopilotなどのLLM(大規模言語モデル。大量のテキストデータとディープラーニングで学習したAI。)にはトークンというものがある。

テキストのトークンとは、文章の一部を塊として認識するような、単語や文字列の最小単位のようなもの。

ニューロンとシナプスと、トランスフォーマー。
動画生成用のスケーリング トランスフォーマー
– Scaling transformers for video generation

Soraによるゴールドラッシュの動画は、OpenAIのサイトでざっくりと仕組みが解説されている。

ChatGPTやGoogleのGeminiのベースとなっているニューラルネットワークの、「Transformer(トランスフォーマー)」が使われているという。

ニューラルネットワークとは?

ニューラルネットワークは、人間の脳の神経網を模倣した技術。

仕組みとしては、人間の脳のニューロン(脳を構成する神経細胞)同士を、シナプスがつなぎ合わせていくようなイメージ。

例えば、今その場にいない友人知人の顔や、以前にどこかで見た景色を、徐々に思い出していく感覚が近いかもしれない。

Soraの仕組みを解説している画像。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

Transformerとは?

Googleの研究者たちが開発したディープラーニングのモデル。ChatGPTの最後の「T」はTransformerの「T」。

(GPT:Generative Pre-trained Transformers)

AI半導体大手のNVIDIAのブログには、以下の記載がある。

Transformer モデルは、この文章に含まれる単語のように、連続したデータの関係を追跡することによって、文脈ひいては意味を学習するニューラルネットワークです。

並列処理が可能。

しかも、Transformer が使用する計算は並列処理に適しているため、モデルの高速実行が可能です。

引用元:Transformer モデルとは? | NVIDIA

検索エンジンでも。

また、Transformerは、GoogleやBingで検索するときにも使われているとのこと。

つまり何かを探すときにキーワードを入力し、検索を始めた瞬間、中の方でTransformerが動き出す。

そして段々とノイズが除かれ、クリアになり、目的のサイトへたどり着く。

という、ニューラルネットワークがつながる感じとなる。


Soraのトレーニングと学習サンプル。

サンプルが少ないものは難しいのかも。
記憶 – 思い出しやすい記憶と思い出しにくい記憶。

人間がすぐにピンとこないものを思い出しにくいように、Soraも完璧ではない。

あらかじめ学習していないもの、トレーニングをしていないものを生成するのは難しいと思われる。

前述のゴールドラッシュの動画の場合は、写真やハイウッド映画やドローン映像などがあるため、人間でも頭の中でなんとなくイメージすることができる。

空飛ぶアヒルとドラゴンのハーフ。

アヒルとドラゴンのハーフは実在しないので、人の頭の中でもすぐに想像するのが難しい。

Soraの公開後、X(旧Twitter)上でOpenAIのサム・アルトマン(Sam Altman)CEOが動画のキャプションをリクエストし、OctaneAIのマット・シュリヒト(Matt Schlicht)CEOがテキストを送った。

その送られたキャプションで作成した動画は、最初は期待通りではなかった。

「空飛ぶアヒルとドラゴンのハーフ」は実在せず、有名なキャラクターもいない。

なので人間の頭でもイメージがつきにくく、世にも出ていない。つまり学習サンプルの数が限られている。

それでも、良い感じの(betterな)ものもあるよ、というのがSoraのポテンシャル。

Prompt(プロンプト): クリックで表示されます。
「A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back.」
「日本語訳:アヒルとドラゴンのハーフが、冒険服を着たハムスターを背負って美しい夕日の中を飛んでいます。」


Soraにトレーニングされては困る場合。

仕事やプライベートがなくなっては困る。
生成AIへの期待と不安。

生成AIへの期待が高まる一方、自分が撮った写真や映像を、AIに学習させたくないという場合もある。

特にお仕事として、生計を立てている場合は、そう簡単にAIに生成されては困る。

著作権侵害となる可能性も生じる。

また、何気なくアップしたプライベートな画像や映像もそうだろう。

自分を守るための、学習させないという選択肢。

そのような場合は、クロールを拒否できる設定があると、人間にとってはありがたい。

ChatGPTの場合は、すでにクロールをさせないコードが公表されている。

参考:ChatGPTのアクセスを制限。GPTBotにクロールさせない方法。

OpenAI社のデザイン力。

OpenAIは、ChatGPTなどのツールにも、サイトのデザインにも、高いセンスが感じられる。

神は細部に宿るという言葉があるように、それらからは、無責任さを感じない。

なので、安易にSoraをリリースせずに、人間社会の空気感やルールが整備されるまで、段階を踏んでいるのかもしれない。

Soraの公開デモと、Soraの仕組みを見る猫ちゃん。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。