OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。 / メモ / いがわ

OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。

2024.03.09

Contents - 目次

1 Soraの仕組みと一般公開されたデモ動画。
2 Soraの仕組みと解説。
3 Soraのトレーニングと学習サンプル。
4 Soraにトレーニングされては困る場合。
5 AI 関連メモ。

Soraの仕組みと一般公開されたデモ動画。

Soraのデモ動画：ゴールドラッシュ – Gold Rush

空撮されたような、カリフォルニアのゴールドラッシュ。

19世紀のカリフォルニアの街、川を中心に木造建築物と馬に乗った人々が住む街を、空からドローンで撮影したように生成された動画。

画質はあえて古いカラー映画のようにしたようで、ぱっと見、実写の映画と見分けがつかない。

つまり、実写の映像から学習している可能性が想定される。

Prompt（プロンプト）: クリックで表示されます。: 「Historical footage of California during the gold rush.」; 「日本語訳：ゴールドラッシュ時代のカリフォルニアの歴史的な映像。」

引用元：https://openai.com/sora

Soraの仕組みと解説。

画像データと動画データ。

画像データとは？

画像の仕組みはピクセルの集合体。

基本的にピクセルの位置はX軸とY軸、奥行きのある3Dの場合はZ軸で指定でき、色はRGB（赤・緑・青）の混ぜ合わせで表現できる。

（※印刷の場合はドットの集合体。色はCMYK（シアン・マゼンタ・イエロー・ブラック）の混色で表現される。）

動画データとは？

動画の仕組みは連続画像の集合体。

基本的に「パラパラマンガ」のイメージで、1秒間の画像枚数を「FPS（Frame per Second）」という単位で決められる。

例えば一般的な日本のテレビの場合は「30fps」、一般的な映画の場合は「24fps」となっている。

つまり、テレビは1秒間に30枚の画像、映画は1秒間に24枚の画像が使われている。

Soraの動画の時間と画像の枚数。

Soraは最大60秒の動画を生成できるので、1秒間の枚数（フレームレート）を30fpsとした場合、30 × 60 = 1,800枚となる。

マンガがアニメ化されるときに漫画家自身が描かないのは、現実的にひとりでは描けない量を必要とするという側面もある。

画像データとパッチ化。

ビジュアルデータをパッチ化
– Turning visual data into patches

Soraは、ビジュアルデータをパッチ化しているとのこと。

OpenAIによる、ビジュアルデータのパッチ化の説明画像。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

パケットやトークンのような感じで。

通信量パケ放題の「パケット」や、ChatGPTの「トークン」のように、画像のデータを一旦まとめて（パッチ化して）、単位のように扱っている模様。

トークンとは？

ChatGPTやGemini、CopilotなどのLLM（大規模言語モデル。大量のテキストデータとディープラーニングで学習したAI。）にはトークンというものがある。

テキストのトークンとは、文章の一部を塊として認識するような、単語や文字列の最小単位のようなもの。

ニューロンとシナプスと、トランスフォーマー。

動画生成用のスケーリングトランスフォーマー
– Scaling transformers for video generation

Soraによるゴールドラッシュの動画は、OpenAIのサイトでざっくりと仕組みが解説されている。

ChatGPTやGoogleのGeminiのベースとなっているニューラルネットワークの、「Transformer（トランスフォーマー）」が使われているという。

ニューラルネットワークとは？

ニューラルネットワークは、人間の脳の神経網を模倣した技術。

仕組みとしては、人間の脳のニューロン（脳を構成する神経細胞）同士を、シナプスがつなぎ合わせていくようなイメージ。

例えば、今その場にいない友人知人の顔や、以前にどこかで見た景色を、徐々に思い出していく感覚が近いかもしれない。

Soraの仕組みを解説している画像。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

Transformerとは？

Googleの研究者たちが開発したディープラーニングのモデル。ChatGPTの最後の「T」はTransformerの「T」。

（GPT：Generative Pre-trained Transformers）

AI半導体大手のNVIDIAのブログには、以下の記載がある。

Transformer モデルは、この文章に含まれる単語のように、連続したデータの関係を追跡することによって、文脈ひいては意味を学習するニューラルネットワークです。

並列処理が可能。

しかも、Transformer が使用する計算は並列処理に適しているため、モデルの高速実行が可能です。

引用元：Transformer モデルとは? | NVIDIA

検索エンジンでも。

また、Transformerは、GoogleやBingで検索するときにも使われているとのこと。

つまり何かを探すときにキーワードを入力し、検索を始めた瞬間、中の方でTransformerが動き出す。

そして段々とノイズが除かれ、クリアになり、目的のサイトへたどり着く。

という、ニューラルネットワークがつながる感じとなる。

Soraのトレーニングと学習サンプル。

サンプルが少ないものは難しいのかも。

記憶 – 思い出しやすい記憶と思い出しにくい記憶。

人間がすぐにピンとこないものを思い出しにくいように、Soraも完璧ではない。

あらかじめ学習していないもの、トレーニングをしていないものを生成するのは難しいと思われる。

前述のゴールドラッシュの動画の場合は、写真やハイウッド映画やドローン映像などがあるため、人間でも頭の中でなんとなくイメージすることができる。

空飛ぶアヒルとドラゴンのハーフ。

アヒルとドラゴンのハーフは実在しないので、人の頭の中でもすぐに想像するのが難しい。

Soraの公開後、X（旧Twitter）上でOpenAIのサム・アルトマン（Sam Altman）CEOが動画のキャプションをリクエストし、OctaneAIのマット・シュリヒト（Matt Schlicht）CEOがテキストを送った。

その送られたキャプションで作成した動画は、最初は期待通りではなかった。

「空飛ぶアヒルとドラゴンのハーフ」は実在せず、有名なキャラクターもいない。

なので人間の頭でもイメージがつきにくく、世にも出ていない。つまり学習サンプルの数が限られている。

それでも、良い感じの（betterな）ものもあるよ、というのがSoraのポテンシャル。

https://t.co/WJQCMEH9QG pic.twitter.com/Qa51e18Vph

— Sam Altman (@sama) February 15, 2024

here is a better one: https://t.co/WJQCMEH9QG pic.twitter.com/oymtmHVmZN

— Sam Altman (@sama) February 15, 2024

Prompt（プロンプト）: クリックで表示されます。: 「A half duck half dragon flies through a beautiful sunset with a hamster dressed in adventure gear on its back.」; 「日本語訳：アヒルとドラゴンのハーフが、冒険服を着たハムスターを背負って美しい夕日の中を飛んでいます。」

Soraにトレーニングされては困る場合。

仕事やプライベートがなくなっては困る。

生成AIへの期待と不安。

生成AIへの期待が高まる一方、自分が撮った写真や映像を、AIに学習させたくないという場合もある。

特にお仕事として、生計を立てている場合は、そう簡単にAIに生成されては困る。

著作権侵害となる可能性も生じる。

また、何気なくアップしたプライベートな画像や映像もそうだろう。

自分を守るための、学習させないという選択肢。

そのような場合は、クロールを拒否できる設定があると、人間にとってはありがたい。

ChatGPTの場合は、すでにクロールをさせないコードが公表されている。

参考：ChatGPTのアクセスを制限。GPTBotにクロールさせない方法。

OpenAI社のデザイン力。

OpenAIは、ChatGPTなどのツールにも、サイトのデザインにも、高いセンスが感じられる。

神は細部に宿るという言葉があるように、それらからは、無責任さを感じない。

なので、安易にSoraをリリースせずに、人間社会の空気感やルールが整備されるまで、段階を踏んでいるのかもしれない。

Soraの公開デモと、Soraの仕組みを見る猫ちゃん。

以上、参考になれば幸いです。

※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。（元々はメモ書きでした。） ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。