ChatGPT 4o Image Generationの使い方の例。次世代画像生成方法。 / いがわ

.

Memo

ChatGPTの画像生成のやりかた。4o Image Generation。

ChatGPT GPT-4oの画像生成、Image Generation。

Image Generation(Image Gen)の使い方例。

作りたい画像をメッセージで指示。

生成したい画像をテキスト入力で指示。

テキストメッセージのことをプロンプトとも呼ばれる。)

現在は生成に結構、時間がかかる。(今回は無料プランで生成。)

メッセージ(プロンプト):「可愛い2匹の猫が遊んでいる画像をお願いします。」

ChatGPTの画像生成。Image Generation。

メッセージに応じた画像が生成される。

しばらく待つと画像ができあがる。

特にテイストなどを指示をしない限り、最初は写実的になる模様。

ChatGPTの画像生成。Image Generation。

〇〇風に。

いったん作成された画像に対して、追加で〇〇風にとお願いすると、さらに画像が生成される。

〇〇風などの画像生成は、年齢制限や著作権の問題に気をつけた方が良いかと思います。)


ChatGPT 4o Image Generationのプロンプト例。

ChatGPTへ、テキストメッセージ(プロンプト)でお願い。

次世代の、テキストから画像生成。

より具体的な指示出しをすると、信じられないほどの画像生成が可能となる。

デジタル画像は、ピクセルの集合体。そのピクセルへ対してRGBによる色指定と、X軸とY軸、Y軸での位置指定で構成される。

つまり、数値化ができ、数値によって画像を生成できる。

ChatGPTはあらかじめ学習しているため、画像生成に数値が必要ということではありません。)

画像内の文字が、大きく改善されている。

日本語では大量の漢字やかたかな、ひらがながあるため、看板の文字や漫画のセリフなどに改善の余地があった。

それらが、大幅に改良されている。

英語の場合は少量のアルファベットで構成されているので、文字も含めて、もはや写真との区別もつかなくなってきている。

画像生成のプロンプト。4o Image Generation。

最初の指示出し。

OpenAIの画像生成(4o Image Generation)の例。

下記のメッセージ(プロンプト)はOpenAIのサイトのもの。

長いので、折りたたんでいます。)

参照元:Introducing 4o Image Generation | OpenAI

メッセージ(プロンプト)- クリックで開きます。
「A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing, sporting a tshirt wiith a large OpenAI logo. The handwriting looks natural and a bit messy, and we see the photographer's reflection.

The text reads:

(left)
"Transfer between Modalities:

Suppose we directly model
p(text, pixels, sound) [equation]
with one big autoregressive transformer.

Pros:
* image generation augmented with vast world knowledge
* next-level text rendering
* native in-context learning
* unified post-training stack

Cons:
* varying bit-rate across modalities
* compute not adaptive"

(Right)
"Fixes:
* model compressed representations
* compose autoregressive prior with a powerful decoder"

On the bottom right of the board, she draws a diagram:
"tokens -> [transformer] -> [diffusion] -> pixels"」
日本語訳:「ベイブリッジを見渡せる部屋で、スマートフォンで撮影された横長の画像。ガラス製のホワイトボードの前で、OpenAIの大きなロゴが入ったTシャツを着た女性が文字を書いている。手書きの文字は自然で少し乱雑な印象があり、ホワイトボードには撮影者の反射も映り込んでいる。

ホワイトボードの記述内容:

(左側)
「モダリティ間の転送」

仮に、テキスト、画像、音声の確率分布 p(text, pixels, sound) を
1つの大規模な自己回帰型トランスフォーマーで直接モデル化するとする。

利点:

* 膨大な世界知識を活用した画像生成
* 次世代レベルのテキストレンダリング
* ネイティブなコンテキスト内学習
* 統一されたポストトレーニングの仕組み

欠点:

* モダリティごとに異なるビットレート
* 計算コストの適応性が低い

(右側)
「解決策」

* モデルの圧縮表現を活用する
* 自己回帰型の事前学習と強力なデコーダーを組み合わせる

(ホワイトボードの右下)
彼女は次のような図を描いている:
"tokens → [transformer] → [diffusion] → pixels"」

画像が生成される。

特にテイストなどを指示をしない限り、やはり最初は写実的なる。

ChatGPTの画像生成。Image Generationの例。

追加の指示出し。

メッセージ(プロンプト)- クリックで開きます。
「selfie view of the photographer, as she turns around to high five him」
日本語訳:「カメラに向かって自撮りする撮影者の視点。彼女が振り向き、撮影者とハイタッチしようとしている。」

画像が生成される。

もはや写真と見分けがつかない。

ChatGPTの画像生成。Image Generationの例。

OpenAIのサイトでの生成画像との比較。

Generation。まさに次世代の生成。

同じメッセージだからと言って、生成された画像もまったく同じになるとは限らないことがわかる。

前後のチャットのやりとりや、日時や時間の影響もあると思われる。

ChatGPTの画像生成。「4o Image Generation」by OpenAI。

ほとんど完璧なクオリティ。文字のテイストまで人間と区別がつかない。

ChatGPTの画像生成。「4o Image Generation」by OpenAI。

言語化による指示出しが重要。

ChatGPTとプロンプトのやりとりをしてから。

画像生成は簡単だが、自分が欲しい画像を生成するためには、メッセージでどのような指示を出せるかによる。

ChatGPTはもともとLLM(大規模言語モデル)なので、メッセージのやりとりや、言語化に向いているAI。

そのため、最初は指示出し、言語化、それによるプロンプト作成の練習と、画像生成の繰り返しから始めると良いと思う。

無料プランではハードすぎる。

ただし、無料プランの場合は制限が厳しいので、1日に数枚ほどしか画像を生成できない。

これは格差社会の大きな問題であり、不公平が生まれ、人類の歴史から見ても改善の見込みはまずない。

無料プランでは勝負にならないので、他のサブスクなどの固定費をChatGPTの有料プランに回すか、きっぱりと方向転換した方が良いかと思う。


商用利用や年齢制限について。

商用利用について。

Terms of use(利用規約)。

OpenAI公式サイトや、ChatGPTで商用利用について確認してみたところ、現時点では明確なガイドラインがなく、使用には注意が必要。

Terms of use(利用規約)の「Using Our Services(当社のサービスの利用)」と「Content(コンテンツ)」を確認すると、禁止されている行為でなければ、アウトプットに対する権利・権原・利益はユーザーに譲渡される旨の記載がある。

参照元: Terms of use(英語。ブラウザで翻訳可。)
参照元:Usage policies(英語。ブラウザで翻訳可。)

年齢制限について。

ChatGPTの年齢制限。

OpenAIの利用規約のページによると、使用するためには13歳以上、または住んでいる国で定められる最低年齢に達している必要があり、18歳未満の場合は親または法定後見人の許可がいる。

参照元: Terms of use(英語。ブラウザで翻訳可。)

生成画像の注意点。

フェイク画像やフェイク動画拡散の恐れ。

写真のようなリアリティのあるものも生成され、明らかに〇〇風の画像も生成されるので、SNSなどでのフェイクや、著作権などに気をつけていくような時代になると思われる。

あくまでも常識の範囲内で。

現時点、無断でクリエイターの作品を学習させることへは賛否両論があり、著作権や肖像権などの法の整備も追いついていない。

作者への敬意や配慮、場合によっては対価が必要で、その方が倫理的、道徳的にも好ましいかと。

プライベートとパブリックの区別が無難。

自分のスマホやパソコンの壁紙、待ち受けに使用するのと、SNSなど公の場で公開するのでは大きく違う。

服を着ずに街中を歩くと捕まるように。)

AIのリスクに気をつける。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。