OpenAIからSora(動画生成AI)が広がる。使用はテキストから動画形式で。デザイナー、コーチ、ディレクター / いがわ

.

Memo

OpenAIのSoraの使い方。由来や価格・料金は?

OpenAIからの、Soraの広がり – Text to Video

テキストから動画を生成 – Creating Video from Text
Soraの使い方について。

Soraの基本的な使い方としては、テキストからAI動画を生成する「Text to Video」の形式。

動画生成AIはもちろん、ChatGPTやGemini(旧Bard)、Copilotなどの画像生成を使ったことがあれば、わかりやすいはず。


OpenAIによる、Soraのデモ動画。

空の上の雲に座っている男性。
Soraを使ったデモ。

OpenAIによる、プロンプトを使ったSoraの公式なデモ動画。

man on the cloud.

広がった空(Sora)の、筋斗雲のような雲の上(on the cloud)で、男性(man)が本を読んでいる。

座っている雲以外は、すぐには現実と区別がつかない。

Prompt(プロンプト): クリックで表示されます。
「A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.」
「日本語訳:20代の若い男性が空の雲の上に座って本を読んでいます。」

引用元:https://openai.com/sora

Soraの由来。

Soraの名前の由来は日本語の「空(そら)」。馴染みがあり、覚えやすく、おしゃれな感じ

文章から動画を作ることができるように – Text to Video
テキスト入力から動画生成。

OpenAIのサイトやデモ、サム・アルトマンCEOによる対応や使い方の例を見ると、実際にテキスト入力によるプロンプトで動画を作る仕組みとなっていることがわかる。

時間は最大60秒。解像度とアスペクト比の指定もあり、スマホやパソコン、SNS用などのサイズや時間で動画を生成できる。

Soraの使用方法として、スマホでのSNSや広告用として広がりやすいと思われ、著作権やフェイクニュース、価格などの問題をクリアすれば商用利用も多くなりそう。

ネット上の動画や画像などから。

生成AIは、インターネットやその他の情報を大量に集めて学習する。

ネット上にはテキストだけでなく、動画や画像も大量にあるので、Soraはそれらから学んで賢くなっていく。

動画の仕組みは「パラパラマンガ」であり、連続画像の集まりが動画となる。)

物理法則や因果関係まで。

公式サイトを見ると、動きに不自然さが出ないように、物理法則や因果関係なども学んでいるそう。

ただし現時点では、物理的にありえない動きをすることがあるとのこと。)

上記の例では、ランニングマシンがおかしな動きをしており、男性も本来とは逆の方向へ走っている。

動画は以下のテキストによる指示(プロンプト)を使うことによって生成されている。

特にランニングマシンやトレッドミルという単語は使用されていないため、それらはすでに学習済みなのかもしれない。

Prompt(プロンプト): クリックで表示されます。
「Step-printing scene of a person running, cinematic film shot in 35mm.」
「日本語訳:人が走るステップ・プリンティングのシーン、35mmで撮影された映画のようなフィルム。」

引用元:https://openai.com/sora

これらの機能を通じて、Soraは動画生成の新しい地平を切り開いている。


Soraによる、画像から動画生成 – Image to Video

画像から動画を生成 – Image to Video
Soraの使い方について。

「Text to Video(テキストから動画)」だけでなく、「Image to Video(画像から動画」も可能。

元画像にテキストで指示をすると、動画編集ソフトを使うことなく、動きを加えられる。

画像生成AIのDALL・Eによる画像も、アニメーション化できるとのこと。

Soraを使ったデモ。

中世に建てられたようなホールで、大波に乗る二人のサーファー。

OpenAIのDALL・Eによる生成画像。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

Soraの仕組みと解説について。

こちらへまとめました。

関連:OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。

画像生成機能 – Image generation capabilities
テキスト入力から画像生成。

Sora自身からの画像生成もでき、最大2048×2048の解像度までのサイズをカバー。

この解像度であれば、スマホやパソコンのサムネイル用としても十分のクオリティが出る。

Soraによる画像生成。
Soraによる画像生成。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

画像生成AI DALL·E

SoraもChatGPTのように、同じOpenAI社の、DALL·E 2もしくはDALL·E 3の仕組みが応用されていると思われる。

ChatGPTDALL·E 2も英語を使った方が精度が高くなるので、Soraもそうなる可能性が高い。


Soraによる、動画から動画生成 – Video to Video

動画から動画を生成 – Video to Video
Soraの使い方について。

さらには、「Video to Video(動画から動画」も可能。

元動画にテキストで指示をすると、色々なことができる。

例えば、動画の時間を拡張したり、動画を編集したり、動画と動画を繋げたりすることができるとのこと。

  • 生成動画を拡張 – Extending generated videos
  • 動画から動画を編集 – Video-to-video editing
  • 動画を接続 – Connecting videos
  • など。

生成動画を拡張 – Extending generated videos
動画の時間を前後に延長。

時間を拡張して、異なる3つの動画の結末を、1つの同じ動画にできる。

別々の空から同じ地上へ。

サンフランシスコの空に浮かぶロープウェイのような乗り物が、最終的に同じ地上へ降り立つ。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

ループするバイク動画。

動画と動画をシームレスに繋ぎ合わせられるので、「無限ループ」も簡単に。

空からの日差しを浴びて、バイクでひたすらに疾走する。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

動画から動画を編集 – Video-to-video editing
スポーツカーから馬車へ。

晴れた空の下で、被写体の赤いスポーツカーが馬車になり、道路や左右の背景が変わっている。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

動画を接続 – Connecting videos
現実とファンタジー。

空から見た現実世界の一部に、ファンタジーの世界が現れている。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

ファクトチェック。

「現実」と言っても、本当に現実なのかAIによる生成動画なのかの判断がつかない。

これからは、「現実のように作られた動画」かもしれない、「フェイク動画」かもしれないということに気を付ける時代へとなっていきそう。

Soraって結局なに?
ワールドシミュレーターとしての動画生成モデル – Video generation models as world simulators
物理世界をシミュレート。

OpenAIのサイトでは、「物理世界の汎用シミュレーターを構築するため」という記載がされている。そうなると実際に人間が行けない場所やミクロの世界でも、データさえあればシミュレーションができることになる。

知らないものは生成できない。

人間は宇宙の果てや未知の海底、恐竜の時代や未来の世界を、撮影したり認知することができない。

なので、Soraも学習サンプルが足りず、映像化することができない。生成される動画は、あくまでもデータを元にシミュレートされた想像上のものとなる。

デジタル世界をシミュレート。

トレーニングデータが多く、共通するものも多々ありそうなビデオゲームの世界では、Minecraft(マインクラフト)でデジタル世界のシミュレートを披露している。

2022年6月23日に、OpenAIのブログにもトレーニングについての記事がアップされていた。

参考:Learning to play Minecraft with Video PreTraining

とてもただの「動画生成だけのAI」では終わらなそう。

引用元:https://openai.com/research/video-generation-models-as-world-simulators

Soraはいつから使える?

Soraにはフェイク動画などで悪用されるリスクもある。まだ一般ユーザーにはリリースされていないが、ルールが整備されていけば一般公開されると思われる。

Adobe Premiere ProでのSora。

2024年4月16日、Adobe社が動画編集ソフトAdobe Premiere ProでSoraを搭載したプレビュー発表があった。

Soraの料金は?

現時点では使用料などの発表はされておらず。これまでの経緯や他の生成AIの料金プランの体系から、無料版と有料版が出る可能性が考えられる。


空から広々とした宇宙へ – Sora to Open Space

ミトンのような手袋をした宇宙飛行士。
mitten astronaut.

空から宇宙へ飛び出し、未知の惑星なのか、青い空の下、塩の砂漠の上に、ミトンのような手袋をした宇宙飛行士(mitten astronaut)が降り立つムービートレーラー。

宇宙船のチープ感を含め、このようなハリウッドのSF映画的なものは、もうAI作か人間作かの判断がつかなくなってきている。

Prompt(プロンプト): クリックで表示されます。
「A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.」
「日本語訳:赤いウールのニットのバイクヘルメットをかぶった30歳の宇宙飛行士の冒険を特集した映画予告編。青い空、塩の砂漠、映画のようなスタイル、35mmフィルムで撮影、鮮やかな色。」

引用元:https://openai.com/sora

思ったよりも速く、思ったよりも少なく。

ChatGPTやGemini(旧Bard)もそうだったが、2024年以降でさえ、思ったよりも速く新しい技術がリリースされ続けている。

それもおそらく、例えば日本の国家予算の「数百兆」や、テラの「1000テラバイト(1ペタバイト)」よりも少ない単位の情報量で、生成ができている。

情報量と情報処理が増えれば、より加速するのだろう。半導体の急激かつ多大な需要の伸びや、単位の追加(ロナやクエタ、ロントやクエクト)などもそれを示唆している。


空の下の人々 – People Under the Sky

東京の空の下をスタイリッシュな女性が歩く。
東京ウォーク – tokyo walk

テレビでもよく紹介されていた動画。

背景に複数の人物がいる場合のAI生成動画は難しいと言われていたが、ほとんど違和感がない。

日本語はまだ難しいようで、看板やネオンはおかしな文字になっている。それでも半年後、1年後にはどうにかなっていそうに思えてくる。

Prompt(プロンプト): クリックで表示されます。
「A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.」
「日本語訳:スタイリッシュな女性が、暖かく輝くネオンとアニメーションの街の看板で満たされた東京の通りを歩いています。 彼女は黒い革のジャケット、赤い長いドレス、黒いブーツを着ており、黒い財布を持っています。 彼女はサングラスと赤い口紅をつけています。 彼女は自信を持って何気なく歩いています。 通りは湿っていて反射しており、色とりどりの光の鏡効果を生み出しています。 多くの歩行者が歩いています。」

引用元:https://openai.com/sora

2056年のラゴスの空の下で集まっている人々。
ラゴス – Lagos

こちらも複数人、それも結構な数の人々が集まっている様子だが、やはりほとんど違和感がない。

この時代にVRやARのゴーグルが普及しているかどうかはわからない。

ただ、動画中にVR/ARゴーグルをしている人がいないのは、ネット上などに情報が少ないことが影響しているのかもしれない。

Prompt(プロンプト): クリックで表示されます。
「A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.」
「日本語訳:2056年のナイジェリア、ラゴスの人々を映した美しい自家製ビデオ。携帯電話のカメラで撮影されました。」

引用元:https://openai.com/sora

1800年代のカリフォルニアの空の下で暮らす人々。
ゴールドラッシュ – Gold Rush

逆に、高層ビルと自動車ではなく、木造の建築物と馬に乗った人々が住むカリフォルニアの街を、空からドローンで撮影したような動画も生成できる。

それも、古いカラー映画のような画質で。

Prompt(プロンプト): クリックで表示されます。
「Historical footage of California during the gold rush.」
「日本語訳:ゴールドラッシュ時代のカリフォルニアの歴史的な映像。」

引用元:https://openai.com/sora

Soraの仕組みと解説について。

こちらへまとめました。

関連:OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。

OpenAIからSora(そら)が広がる。テキストから動画にする使い方を眺める猫ちゃん。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。
OpenAIのロゴ。
Bard 関連メモ。
Googleのロゴ。
Sora 関連メモ。
DALL·E 関連メモ。
Llama 関連メモ。

免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。