OpenAIからSora（動画生成AI）が広がる。デモやWebCMから一般公開へ。 / メモ / いがわ

OpenAIからSora（動画生成AI）が広がる。デモやWebCMから一般公開へ。

2024.02.17 2024.08.12更新。

Contents - 目次

1 OpenAIからの、Soraの広がり – Text to Video
2 OpenAIによる、Soraのデモ動画。
3 Soraによる、画像から動画生成 – Image to Video
4 Soraによる、動画から動画生成 – Video to Video
5 Soraの公式デモ：空から広々とした宇宙へ – Sora to Open Space
6 Soraの公式デモ：空の下の人々 – People Under the Sky
7 Soraで作成された最初のCM。
8 Soraの料金は？
9 Soraとはいったい？
10 Soraはいつから使える？一般公開は？
11 AI 関連メモ。

OpenAIからの、Soraの広がり – Text to Video

テキストから動画を生成 – Creating Video from Text

Soraの使い方について。

Soraの基本的な使い方としては、テキストからAI動画を生成する「Text to Video」の形式。

動画生成AIはもちろん、ChatGPTやGemini（旧Bard）、Copilotなどの画像生成のAI機能を使ったことがあれば、わかりやすいはず。

（※年齢制限や、著作権などには注意が必要です。）

OpenAIによる、Soraのデモ動画。

空の上の雲に座っている男性。

Soraを使った公式デモ。

OpenAIによる、プロンプトを使ったSoraの公式なデモ動画。

man on the cloud.

広がった空（Sora）の、筋斗雲のような雲の上（on the cloud）で、男性（man）が本を読んでいる。

座っている雲以外は、すぐには現実と区別がつかない。

Prompt（プロンプト）: クリックで表示されます。: 「A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.」; 「日本語訳：20代の若い男性が空の雲の上に座って本を読んでいます。」

引用元：https://openai.com/sora

Soraの由来。

Soraの名前の由来は日本語の「空（そら）」。馴染みがあり、覚えやすく、おしゃれな感じ。

文章から動画を作ることができるように – Text to Video

テキスト入力から動画生成。

OpenAIのサイトやデモ、サム・アルトマン（Samuel Altman）CEOによる対応や使い方の例を見ると、実際にテキスト入力によるプロンプトで動画を作る仕組みとなっていることがわかる。

時間は最大60秒。解像度とアスペクト比の指定もあり、スマホやパソコン、SNS用などのサイズや時間で動画を生成できる。

Soraの活用方法。

Soraの活用方法として、スマホでのSNSや広告用として広がりやすいと思われ、著作権やフェイクニュース、料金などの問題をクリアすれば商用利用も多くなりそう。

ネット上の動画や画像などから学ぶ。

生成AIは、インターネットやその他の情報を大量に集めて学習する。

ネット上にはテキストだけでなく、動画や画像も大量にあるので、Soraはそれらから学んで賢くなっていく。

（※動画の仕組みは「パラパラマンガ」であり、連続画像の集まりが動画となる。）

物理法則や因果関係まで。

公式サイトを見ると、動きに不自然さが出ないように、物理法則や因果関係なども学んでいるそう。

（※ただし現時点では、物理的にありえない動きをすることがあるとのこと。）

上記の例では、ランニングマシンがおかしな動きをしており、男性も本来とは逆の方向へ走っている。

動画は以下のテキストによる指示（プロンプト）を使うことによって生成されている。

特にランニングマシンやトレッドミルという単語は使用されていないため、それらはすでに学習済みなのかもしれない。

Prompt（プロンプト）: クリックで表示されます。: 「Step-printing scene of a person running, cinematic film shot in 35mm.」; 「日本語訳：人が走るステップ・プリンティングのシーン、35mmで撮影された映画のようなフィルム。」

引用元：https://openai.com/sora

これらの機能を通じて、Soraは動画生成の新しい地平を切り開いている。

Soraによる、画像から動画生成 – Image to Video

画像から動画を生成 – Image to Video

Soraの使い方について。

「Text to Video（テキストから動画）」だけでなく、「Image to Video（画像から動画」も可能。

元画像にテキストで指示をすると、動画編集ソフトを使うことなく、動きを加えられる。

画像生成AIのDALL・Eによる画像も、アニメーション化できるとのこと。

Soraを使った公式デモ。

中世のヨーロッパに建てられたようなホールで、大波に乗る二人のサーファー。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

Soraの仕組みや原理。

こちらへまとめました。

画像生成機能 – Image generation capabilities

テキスト入力から画像生成。

Sora自身からの画像生成もでき、最大2048×2048の解像度までのサイズをカバー。

この解像度であれば、スマホやパソコンのサムネイル用としても十分のクオリティが出る。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

画像生成AI DALL·E

SoraもChatGPTのように、同じOpenAI社の、DALL·E 2もしくはDALL·E 3の仕組みが応用されていると思われる。

ChatGPTもDALL·E 2も英語を使った方が精度が高くなるので、Soraもそうなる可能性が高い。

Soraによる、動画から動画生成 – Video to Video

動画から動画を生成 – Video to Video

Soraの使い方について。

さらには、「Video to Video（動画から動画」も可能。

元動画にテキストで指示をすると、色々なことができる。

例えば、動画の時間を拡張したり、動画を編集したり、動画と動画を繋げたりすることができるとのこと。

生成動画を拡張 – Extending generated videos
動画から動画を編集 – Video-to-video editing
動画を接続 – Connecting videos

など。

生成動画を拡張 – Extending generated videos

動画の時間を前後に延長。

時間を拡張して、異なる３つの動画の結末を、１つの同じ動画にできる。

別々の空から同じ地上へ。

サンフランシスコの空に浮かぶロープウェイのような乗り物が、最終的に同じ地上へ降り立つ。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

ループするバイク動画。

動画と動画をシームレスに繋ぎ合わせられるので、「無限ループ」も簡単に。

空からの日差しを浴びて、バイクでひたすらに疾走する。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

動画から動画を編集 – Video-to-video editing

スポーツカーから馬車へ。

晴れた空の下で、被写体の赤いスポーツカーが馬車になり、道路や左右の背景が変わっている。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

動画を接続 – Connecting videos

現実とファンタジー。

空から見た現実世界の一部に、ファンタジーの世界が現れている。

ファクトチェック。

これからは、「現実のように作られた動画」かもしれない、「フェイク動画」かもしれないということに気を付ける時代へとなっていきそう。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

Soraって結局なに？

ワールドシミュレーターとしての動画生成モデル – Video generation models as world simulators

物理世界をシミュレート。

OpenAIのサイトでは、「物理世界の汎用シミュレーターを構築するため」という記載がされている。

そうなると実際に人間が行けない場所やミクロの世界でも、データさえあればシミュレーションができることになる。

知らないものは生成できない。

人間は宇宙の果てや未知の海底、恐竜の時代や未来の世界を、撮影したり認知することができない。

なので、Soraも学習サンプルが足りず、映像化することができない。生成される動画は、あくまでもデータを元にシミュレートされた想像上のものとなる。

デジタル世界をシミュレート。

トレーニングデータが多く、共通するものも多々ありそうなビデオゲームの世界では、Minecraft（マインクラフト）でデジタル世界のシミュレートを披露している。

2022年6月23日に、OpenAIのブログにもトレーニングについての記事がアップされていた。

参考：Learning to play Minecraft with Video PreTraining

とてもただの「動画生成だけのAI」では終わらなそう。

引用元：https://openai.com/research/video-generation-models-as-world-simulators

Soraの公式デモ：空から広々とした宇宙へ – Sora to Open Space

ミトンのような手袋をした宇宙飛行士。

OpenAIによるSoraの公式デモ。

mitten astronaut.

空から宇宙へ飛び出し、未知の惑星なのか、青い空の下、塩の砂漠の上に、ミトンのような手袋をした宇宙飛行士（mitten astronaut）が降り立つムービートレーラー。

宇宙船のチープ感を含め、このようなハリウッドのSF映画的なものはネット上にもサンプルが多いので、クオリティも高い。

Prompt（プロンプト）: クリックで表示されます。: 「A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.」; 「日本語訳：赤いウールのニットのバイクヘルメットをかぶった30歳の宇宙飛行士の冒険を特集した映画予告編。青い空、塩の砂漠、映画のようなスタイル、35mmフィルムで撮影、鮮やかな色。」

引用元：https://openai.com/sora

思ったよりも速く、思ったよりも少なく。

ChatGPTやGemini（旧Bard）もそうだったが、2024年以降でさえ、思ったよりも速く新しい技術がリリースされ続けている。

それもおそらく、例えば日本の国家予算の「数百兆」や、テラの「1,000テラバイト（1ペタバイト）」よりも少ない単位の情報量で、生成ができている。

インターネットが一般的に普及しだしたのも、ここ20年〜30年ほど。本や写真、映像の歴史よりもずっと短い。

情報量と情報処理が増えれば、より加速するのだろう。半導体の急激かつ多大な需要の伸びや、単位の追加（ロナやクエタ、ロントやクエクト）などもそれを示唆している。

Soraの公式デモ：空の下の人々 – People Under the Sky

Sora。東京の空の下をスタイリッシュな女性が歩く。

OpenAIによるSoraの公式デモ。

Soraのデモ：東京ウォーク – tokyo walk

テレビなどでもよく紹介されていた動画。

背景に複数の人物がいる場合のAI生成動画は難しいと言われていたが、ほとんど違和感がない。

日本語はまだ難しいようで、看板やネオンはおかしな文字になっている。それでも半年後、1年後にはどうにかなっていそうに思えてくる。

Prompt（プロンプト）: クリックで表示されます。: 「A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.」; 「日本語訳：スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。彼女はサングラスと赤い口紅をつけています。彼女は自信を持って何気なく歩いています。通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。多くの歩行者が歩いています。」

引用元：https://openai.com/sora

Sora。2056年のラゴスの空の下で集まっている人々。

Soraのデモ：ラゴス – Lagos

こちらも複数人、それも結構な数の人々が集まっている様子だが、やはりほとんど違和感がない。

この時代にVRやARのゴーグルが普及しているかどうかはわからない。

ただ、動画中にVR/ARゴーグルをしている人がいないのは、ネット上などに情報が少ないことが影響しているのかもしれない。

Prompt（プロンプト）: クリックで表示されます。: 「A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.」; 「日本語訳：2056年のナイジェリア、ラゴスの人々を映した美しい自家製ビデオ。携帯電話のカメラで撮影されました。」

引用元：https://openai.com/sora

Sora。1800年代のカリフォルニアの空の下で暮らす人々。

Soraのデモ：ゴールドラッシュ – Gold Rush

逆に、高層ビルと自動車ではなく、木造の建築物と馬に乗った人々が住むカリフォルニアの街を、空からドローンで撮影したような動画も生成できる。

それも、古いカラー映画のような画質で。

Prompt（プロンプト）: クリックで表示されます。: 「Historical footage of California during the gold rush.」; 「日本語訳：ゴールドラッシュ時代のカリフォルニアの歴史的な映像。」

引用元：https://openai.com/sora

Soraで作成された最初のCM。

Sora製の、トイザらスのWebCM。

トイザらス（Toys“R”Us）による動画広告。

2024年6月に、Soraを使った最初のコマーシャル（WebCM）が登場。

トイザらス（Toys“R”Us）の創業者であるチャールズ・ラザラス（Charles Lazarus）さんの子ども時代を、実写映画のワンシーンのように描いている。

（※ただし、AI代替による雇用問題や、クリティティの面で批判的意見もあり。）

Soraの料金は？

Soraの料金体系。

有料版は月額20ドル程度が多いが…

現時点では使用料などの発表はされておらず。

これまでの経緯や他の生成AIの料金プランの体系から、無料版と有料版が出る可能性が考えられる。

Soraとはいったい？

Soraの仕組みと解説について。

動画の原理と画像の原理。

こちらへまとめました。

Soraはいつから使える？一般公開は？

リリースはおそらく2024年末か、2025年以降から。

Soraの一般公開には慎重に…

2024年3月にOpenAIのミラ・ムラティ（Mira Murati）CTOは、Soraのリリースのついて年内を考えている旨を、ウォール・ストリート・ジャーナルのインタビューで答えている。

動画生成AIのリスク。

Soraにはフェイク動画などで悪用されるリスクもある。一般公開のタイミングは、ルールが整備されていくにつれリリースもされるのではないだろうか。

Adobe Premiere ProでのSora。

2024年4月16日、Adobe社が動画編集ソフトAdobe Premiere ProでSoraを含めた動画生成AIを導入したプレビュー発表もすでにされている。

それでも今年はパリオリンピック&パラリンピックやアメリカ大統領選挙などのビッグイベントがあるため、リスク回避のためにも、一般公開には慎重になっていると思われる。

OpenAIからSora（そら）が広がる。テキストから動画にする使い方を眺める猫ちゃん。

以上、参考になれば幸いです。

※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。（元々はメモ書きでした。） ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。