最新AIでもフェイク画像を見分けられない。プロンプトなしでは画像認識不可。 / いがわ

.

Memo

AIとフェイク画像事例。プロンプトと画像認識問題。

広告について。

サイト運営のため、Googleアドセンス
による広告があります。

AIフェイク画像事例。

フェイク画像からのハルシネーション。

SNSでのフェイク画像事例。

たまたま流れてきた古代遺跡のフェイク画像。

これらの偽の生成画像や生成動画は、これから一気に増える可能性がある。

生成AI登場時の回答のような現象に。

見たのが実名性の高いSNS、かつ英語だったため、真偽がすぐにはわからなかった。

そこでAIで確認しようとしてみたところ、2023年時の生成AIのような、強烈なハルシネーション、いわゆるAIが見る幻覚が。

幻覚の盲信によるAIの暴走。

古代アボリジニの岩絵や、アルジェリアのタッシリ・ナジェールであるという結論が出され、その名前やスタイル、年代までも生成された。

知らないものを調べようとしているので、信じてしまいそうになる。

画像認識とオーストラリアのイメージ。

Photo by Wietse Jongsma

GeminiでもClaudeでもGrokでも画像認識できず。

画像認識の成功率が0%?

GeminiでもClaudeでもGrokでも、「プロンプトがない」状態では画像を認識できていなかった。

プロンプト入力欄が空欄の場合、10回中10回すべてで、同じような上記のハルシネーションが起こった。

フェイクかどうかについても、共通して一切、触れられなかった。

生成された文章もすべて英語。

母数が10とはいえ、正解は0%、失敗が100%、かつ言語も英語が100%。)

データセットにない情報が原因か。

異なるAI、かつ10回すべてで同じような現象となると、偶然とは考えにくい。

おそらく、フェイク画像やフェイク動画は、AIの学習データにはないことが原因と想定される。

画像認識を試したAIモデル。

今回チェックしてみたのは、下記のメジャーなモデル。無料枠ではそれぞれの最新版。

  • Gemini(3 Pro Preview)
  • Claude(Sonet 4.5)
  • Grok(エキスパート、4.1 Beta)
  • ChatGPT(GPT-5)

ChatGPTには「メモリ」と「カスタム指示」という機能があり、勝手な結論を出さないようにあらかじめ指定していたため、フェイクかどうかの判断はされなかった。

結論がないため、間違いはないが、正解もない。)

AIとフェイク画像事例。問題と対策イメージ。

Photo by Camilo Fierro

電子透かしやデジタル署名。

画像生成時には「AIによる生成物」だとわかるように、電子透かし(ウォーターマーク)の埋め込みやデジタル署名がされる技術もある。

が、すべての生成AIがそうするわけではないのが懸念点。


AIの画像認識には現時点、プロンプトが必須。

画像認識ができないAIと、人間による指示。

画像認識はプロンプトの有無で変わる。

AIは人間同様、知らないことは答えられない。

そのためAIは、学習データになく、プロンプトもない場合、典型的な「もっともらしい嘘」を生成してしまう。

「これは〇〇で」、「〇〇によって」、「〇〇と言います。」といった感じで。

「〇〇」の内容だけが変わるだけになる。

思い込みと幻覚による結論は危うい。

また「〇〇」自体は正しいことも多々ある。そしてAIはとにかく上手に文章を作り、結論を急ぐ。

人間の場合での「思い込み」や「幻覚」のような状態であり、コストを抑えるためでもあると思われる。

画像認識とハルシネーションのイメージ。

Photo by Ian

Transformer(機械学習、深層学習モデル)。

共通祖先はTransformer(トランスフォーマー)。

ChatGPT、Gemini、Claude、Grokなど、現在主流のAIは、2017年にGoogleの研究者たちが「Attention is All You Need」という論文で発表した「Transformer」と呼ばれる機械学習、深層学習モデルが基礎とされている。

どこかの仕組み、アルゴリズムが、今回の「同じようなハルシネーション」を起こすきっかけとなってしまったのかもしれない。

参考:Attention Is All You Need – Wikipedia

TransformerとChatGPT。

Transformerは、現在のAIブームのきっかけとなったChatGPTに使用されている優秀なモデル。

ChatGPT(チャットGPT)の「GPT」は、

  • Generative(生成)
  • Pre-trained(プレトレーニング、事前学習)
  • Transformer(トランスフォーマー)

の略称。

AIフェイク画像は事前学習が難しい。

いたちごっこ。

基本的にAIによるフェイク画像はAIのリリース後に生成されるため、リリース前のデータセットに含められない。

また、フェイクと認識された画像データを含めようとしても、大量生産されると物理的な容量オーバーとなり、いたちごっこともなる。

AIフェイク画像は、事前の学習データには存在しない。

AIによるフェイク画像や動画は、

  • 機械学習(Machine Learning / マシンラーニング)
  • 深層学習(Deep Learning / ディープラーニング)

などの「事前学習(Pre-training / プレトレーニング、事前学習)」がされていないことが、原因として考えられる。

Photoshopよりも容易に。

画像編集ソフトのPhotoshopが登場してからUFOの発見報告の数が増えたという話があるように、生成AIにも似たようなことになることが予想される。

Photoshopには知識やスキル、時間や労力が必要になるが、生成AIの場合は比較的簡単に画像が生成できてしまう。

現時点では幸か不幸か、電力の問題もある。)

AIとフェイク画像事例。問題と対策イメージ。

Photo by sydney Rae


フェイク画像認識への対策例。

AIへプロンプトで指示を行う。

指示による画像認識の改善。

この画像認識の問題は、「ファクトチェックをしてください。」、「本物かどうか確認して。」などと、AIへ指示を出すと一気に改善される。

本物であれば、テキストデータとして科学的根拠を基に認識・把握している可能性が高まる。

動画も静止画の集まりなので、同様だと思われる。

メモリやカスタム指示を設定しておく。

ChatGPTのメモリやカスタム指示。

ChatGPTには、「メモリ」や「カスタム指示」という機能があり、そこへ覚えておいて欲しい内容を保存しておける。

ただしこれらの機能も回答時に無視されることがあるので、100%ではないという注意が必要。


生成AIの年齢制限について。

生成AIを利用するときは?

年齢制限や利用規約がある。

関連:ChatGPTやGeminiなど生成AIの年齢制限と、AI使用のリスクと対処。

AIとフェイク画像事例。問題と対策イメージ。

Photo by Jametlene Reskp

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。