Contents - 目次
OpenAIからの、Soraの広がり – Text to Video
テキストから動画を生成 – Creating Video from Text
Soraの使い方について。
Soraの基本的な使い方としては、テキストからAI動画を生成する「Text to Video」の形式。
動画生成AIはもちろん、ChatGPTやGemini(旧Bard)、Copilotなどの画像生成のAI機能を使ったことがあれば、わかりやすいはず。
- 関連:ChatGPT無料版でも画像生成が可能に。有料版だけじゃない!?
- 関連:Bard(Gemini)が絵を描けるように。テキストから画像生成の方法。
- 関連:Copilot。GPT-4とDALL·E 3が無料で使える生成AI。
OpenAIによる、Soraのデモ動画。
空の上の雲に座っている男性。
Soraを使った公式デモ。
OpenAIによる、プロンプトを使ったSoraの公式なデモ動画。
man on the cloud.
広がった空(Sora)の、筋斗雲のような雲の上(on the cloud)で、男性(man)が本を読んでいる。
座っている雲以外は、すぐには現実と区別がつかない。
Soraの由来。
Soraの名前の由来は日本語の「空(そら)」。馴染みがあり、覚えやすく、おしゃれな感じ。
文章から動画を作ることができるように – Text to Video
テキスト入力から動画生成。
OpenAIのサイトやデモ、サム・アルトマン(Samuel Altman)CEOによる対応や使い方の例を見ると、実際にテキスト入力によるプロンプトで動画を作る仕組みとなっていることがわかる。
時間は最大60秒。解像度とアスペクト比の指定もあり、スマホやパソコン、SNS用などのサイズや時間で動画を生成できる。
Soraの活用方法。
Soraの活用方法として、スマホでのSNSや広告用として広がりやすいと思われ、著作権やフェイクニュース、料金などの問題をクリアすれば商用利用も多くなりそう。
ネット上の動画や画像などから学ぶ。
生成AIは、インターネットやその他の情報を大量に集めて学習する。
ネット上にはテキストだけでなく、動画や画像も大量にあるので、Soraはそれらから学んで賢くなっていく。
(※動画の仕組みは「パラパラマンガ」であり、連続画像の集まりが動画となる。)
物理法則や因果関係まで。
公式サイトを見ると、動きに不自然さが出ないように、物理法則や因果関係なども学んでいるそう。
(※ただし現時点では、物理的にありえない動きをすることがあるとのこと。)
上記の例では、ランニングマシンがおかしな動きをしており、男性も本来とは逆の方向へ走っている。
動画は以下のテキストによる指示(プロンプト)を使うことによって生成されている。
特にランニングマシンやトレッドミルという単語は使用されていないため、それらはすでに学習済みなのかもしれない。
これらの機能を通じて、Soraは動画生成の新しい地平を切り開いている。
Soraによる、画像から動画生成 – Image to Video
画像から動画を生成 – Image to Video
Soraの使い方について。
「Text to Video(テキストから動画)」だけでなく、「Image to Video(画像から動画」も可能。
元画像にテキストで指示をすると、動画編集ソフトを使うことなく、動きを加えられる。
画像生成AIのDALL・Eによる画像も、アニメーション化できるとのこと。
Soraを使った公式デモ。
中世のヨーロッパに建てられたようなホールで、大波に乗る二人のサーファー。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
Soraの仕組みや原理。
こちらへまとめました。
関連:OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
画像生成機能 – Image generation capabilities
テキスト入力から画像生成。
Sora自身からの画像生成もでき、最大2048×2048の解像度までのサイズをカバー。
この解像度であれば、スマホやパソコンのサムネイル用としても十分のクオリティが出る。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
画像生成AI DALL·E
SoraもChatGPTのように、同じOpenAI社の、DALL·E 2もしくはDALL·E 3の仕組みが応用されていると思われる。
ChatGPTもDALL·E 2も英語を使った方が精度が高くなるので、Soraもそうなる可能性が高い。
Soraによる、動画から動画生成 – Video to Video
動画から動画を生成 – Video to Video
Soraの使い方について。
さらには、「Video to Video(動画から動画」も可能。
元動画にテキストで指示をすると、色々なことができる。
例えば、動画の時間を拡張したり、動画を編集したり、動画と動画を繋げたりすることができるとのこと。
- 生成動画を拡張 – Extending generated videos
- 動画から動画を編集 – Video-to-video editing
- 動画を接続 – Connecting videos
など。
生成動画を拡張 – Extending generated videos
動画の時間を前後に延長。
時間を拡張して、異なる3つの動画の結末を、1つの同じ動画にできる。
別々の空から同じ地上へ。
サンフランシスコの空に浮かぶロープウェイのような乗り物が、最終的に同じ地上へ降り立つ。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
ループするバイク動画。
動画と動画をシームレスに繋ぎ合わせられるので、「無限ループ」も簡単に。
空からの日差しを浴びて、バイクでひたすらに疾走する。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
動画から動画を編集 – Video-to-video editing
スポーツカーから馬車へ。
晴れた空の下で、被写体の赤いスポーツカーが馬車になり、道路や左右の背景が変わっている。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
動画を接続 – Connecting videos
現実とファンタジー。
空から見た現実世界の一部に、ファンタジーの世界が現れている。
ファクトチェック。
これからは、「現実のように作られた動画」かもしれない、「フェイク動画」かもしれないということに気を付ける時代へとなっていきそう。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
Soraって結局なに?
ワールドシミュレーターとしての動画生成モデル – Video generation models as world simulators
物理世界をシミュレート。
OpenAIのサイトでは、「物理世界の汎用シミュレーターを構築するため」という記載がされている。そうなると実際に人間が行けない場所やミクロの世界でも、データさえあればシミュレーションができることになる。
知らないものは生成できない。
人間は宇宙の果てや未知の海底、恐竜の時代や未来の世界を、撮影したり認知することができない。
なので、Soraも学習サンプルが足りず、映像化することができない。生成される動画は、あくまでもデータを元にシミュレートされた想像上のものとなる。
デジタル世界をシミュレート。
トレーニングデータが多く、共通するものも多々ありそうなビデオゲームの世界では、Minecraft(マインクラフト)でデジタル世界のシミュレートを披露している。
2022年6月23日に、OpenAIのブログにもトレーニングについての記事がアップされていた。
参考:Learning to play Minecraft with Video PreTraining
とてもただの「動画生成だけのAI」では終わらなそう。
引用元:https://openai.com/research/video-generation-models-as-world-simulators
Soraの公式デモ:空から広々とした宇宙へ – Sora to Open Space
ミトンのような手袋をした宇宙飛行士。
OpenAIによるSoraの公式デモ。
mitten astronaut.
空から宇宙へ飛び出し、未知の惑星なのか、青い空の下、塩の砂漠の上に、ミトンのような手袋をした宇宙飛行士(mitten astronaut)が降り立つムービートレーラー。
宇宙船のチープ感を含め、このようなハリウッドのSF映画的なものはネット上にもサンプルが多いので、クオリティも高い。
思ったよりも速く、思ったよりも少なく。
ChatGPTやGemini(旧Bard)もそうだったが、2024年以降でさえ、思ったよりも速く新しい技術がリリースされ続けている。
それもおそらく、例えば日本の国家予算の「数百兆」や、テラの「1000テラバイト(1ペタバイト)」よりも少ない単位の情報量で、生成ができている。
インターネットが一般的に普及しだしたのも、ここ20年〜30年ほど。本や写真、映像の歴史よりもずっと短い。
情報量と情報処理が増えれば、より加速するのだろう。半導体の急激かつ多大な需要の伸びや、単位の追加(ロナやクエタ、ロントやクエクト)などもそれを示唆している。
Soraの公式デモ:空の下の人々 – People Under the Sky
Sora。東京の空の下をスタイリッシュな女性が歩く。
OpenAIによるSoraの公式デモ。
Soraのデモ:東京ウォーク – tokyo walk
テレビなどでもよく紹介されていた動画。
背景に複数の人物がいる場合のAI生成動画は難しいと言われていたが、ほとんど違和感がない。
日本語はまだ難しいようで、看板やネオンはおかしな文字になっている。それでも半年後、1年後にはどうにかなっていそうに思えてくる。
Sora。2056年のラゴスの空の下で集まっている人々。
Soraのデモ:ラゴス – Lagos
こちらも複数人、それも結構な数の人々が集まっている様子だが、やはりほとんど違和感がない。
この時代にVRやARのゴーグルが普及しているかどうかはわからない。
ただ、動画中にVR/ARゴーグルをしている人がいないのは、ネット上などに情報が少ないことが影響しているのかもしれない。
Sora。1800年代のカリフォルニアの空の下で暮らす人々。
Soraのデモ:ゴールドラッシュ – Gold Rush
逆に、高層ビルと自動車ではなく、木造の建築物と馬に乗った人々が住むカリフォルニアの街を、空からドローンで撮影したような動画も生成できる。
それも、古いカラー映画のような画質で。
Soraで作成された最初のCM。
Sora製の、トイザらスのWebCM。
トイザらス(Toys“R”Us)による動画広告。
2024年6月に、Soraを使った最初のコマーシャル(WebCM)が登場。
トイザらス(Toys“R”Us)の創業者であるチャールズ・ラザラス(Charles Lazarus)さんの子ども時代を、実写映画のワンシーンのように描いている。
(※ただし、AI代替による雇用問題や、クリティティの面で批判的意見もあり。)
Soraの料金は?
Soraの料金体系。
有料版は月額20ドル程度が多いが…
現時点では使用料などの発表はされておらず。
これまでの経緯や他の生成AIの料金プランの体系から、無料版と有料版が出る可能性が考えられる。
Soraとはいったい?
Soraの仕組みと解説について。
動画の原理と画像の原理。
こちらへまとめました。
関連:OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
Soraはいつから使える?一般公開は?
リリースはおそらく2024年末か、2025年以降から。
Soraの一般公開には慎重に…
2024年3月にOpenAIのミラ・ムラティ(Mira Murati)CTOは、Soraのリリースのついて年内を考えている旨を、ウォール・ストリート・ジャーナルのインタビューで答えている。
動画生成AIのリスク。
Soraにはフェイク動画などで悪用されるリスクもある。一般公開のタイミングは、ルールが整備されていくにつれリリースもされるのではないだろうか。
Adobe Premiere ProでのSora。
2024年4月16日、Adobe社が動画編集ソフトAdobe Premiere ProでSoraを含めた動画生成AIを導入したプレビュー発表もすでにされている。
それでも今年はパリオリンピック&パラリンピックやアメリカ大統領選挙などのビッグイベントがあるため、リスク回避のためにも、一般公開には慎重になっていると思われる。
参照元:Adobe Premiere Proのビデオ編集ワークフローへの動画生成AIの導入について
以上、参考になれば幸いです。
※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。
AI 関連メモ。
ChatGPT 関連メモ。
- ChatGPT searchとは?使い方や、有料と無料、Googleとの違い。
- Chrome拡張機能、ChatGPT searchの使い方。自然言語、日常会話で検索。
- ChatGPTに検索機能。ChatGPT searchでWeb検索が可能に。
- MacとWindowsでもChatGPTと音声会話。Advanced Voiceが利用可能に。
- Advanced Voiceによる音声会話。ChatGPTとプラトニックな関係に?
- OpenAI o1の使い方。考えてから答える新しいChatGPTモデル。
- Voice Engineという名の、音声合成技術。日本語の精度は?
- SearchGPT。ChatGPTがAI検索エンジンに。使い方の例と順番待ちへの登録方法。
- GPT-4o miniが登場。ChatGPT無料版はGPT-3.5からバージョンアップ。
- ChatGPT無料ユーザーにもメモリ機能が。記憶や使い方の例。
- iPhoneやiPad、MacでChatGPT(GTP-4o)が。Apple Intelligence。
- 生成AIとWebデザイン、ChatGPTを活用したコーディングに必要なもの。
- ChatGPT最新モデル GPT-4oが無料でも。使える主な機能。
- ChatGPT(GPT-4o)で、PDF要約の精度を検証した結果。
- GPT-4o。ChatGPTと画像見ながら音声で会話?有料でも無料でも。
- ChatGPT無料版でも画像生成が可能に。有料版だけじゃない!?
- ChatGPT(チャットGPT)にアーカイブ機能が。復元も削除も。
- ChatGPT(チャットGPT)を日本語化。日本語設定の方法。
- ChatGPT(チャットGPT)との音声会話と、音声の変更方法。
- ChatGPTアプリのインストールとログイン方法、チャットの使い方。
- ChatGPT(チャットGPT)のスペルチェック、文章校正がむっちゃ楽。
- ChatGPT(チャットGPT)へのログイン方法。ログインできないとき。
- ChatGPTにプラグイン。広がる機能と使い方。最新情報へも。
- ChatGPTがLINEに?「AIチャットくん」の始め方、そして使い方。
- ChatGPTの始め方と使い方と。初心者向けシンプル版。
- ChatGPTはSVGアイコンを作れるのか?
- ChatGPTの文章作成やコーディング、SEO対策は変わるか?
DALL·E 関連メモ。
Sora 関連メモ。
- OpenAI Soraの短編映画。アーティストや映画制作者たち。
- OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
- OpenAIからSora(動画生成AI)が広がる。デモやWebCMから一般公開へ。
Gemini 関連メモ。
- Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。
- Gemini 1.5 Pro 2Mモデル。Waitlistの登録手順。日本語上手なGoogle生成AI。
- BardからGeminiに。使い方はどう変わる?日本語対応は?
- Bard(Gemini)が絵を描けるように。テキストから画像生成の方法。
- Bard(Gemini)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。
- 最新情報を日本語かつ無料で使いたいときは、GoogleのBard?
- ChatGPTとBardの違い。なぜAIは日本語チャットが苦手なの?
- Bard(Gemini)が日本語対応。ログイン方法や最新情報など、使い方の例。
- BardでGemini。Googleの最新AIを無料で使う方法。
- GoogleのBardは、OpenAIのChatGPTを越えられるだろうか?
Copilot、Bing 関連メモ。
- ChatGPTとCopilotの違い。料金や、できることと、できないこと。
- Copilotとは? GPT-4とDALL·E 3が無料で使える生成AI。
- SkypeのBingチャット。GPT-4を日本語かつ無料で使える。& 注意点。
- BingのGPT-4、チャットの使い方。使えない?(今はまだ。)
- MacでGPT-4(ChatGPT最新版)を使う場合、Edgeが必要なのかも。
Llama 関連メモ。
- Llama 3.1登場。MetaのオープンソースAIとダウンロードサイト。
- Meta Horizon OSとApple Vision Pro。オープンかクローズか。
- Llama 3。無料でオープンソースなMeta AI最新モデル。
- Llama(ラマ)の使い方や日本語は? ダウンロード手順とブラウザ実装サイト。