Gemini(旧Bard)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。 / いがわ

.

Memo

Geminiの画像認識の使い方。日本語でも可。

Bard(現Gemini)が画像認識を開始。

Geminiで画像認識。

Googleレンズの機能で。

Google検索の際に現れる、画像検索用のGoogleレンズを使って、 Geminiは画像を認識できる。

無料で使え、Googleアカウントでログインすると、すぐに利用できる。

  • 2024年2月8日に、BardからGeminiに名称変更されました。
  • 2025年4月時点ではログインなしでも使用可能に。ただし機能が限定的で、画像認識は不可です。

Geminiの画像認識は、日本語でも可。

画像認識機能について。

Geminiはすでに、日本語での画像認識に対応済み。

ただし、「人物」はまだ認識されない。
ロイヤリティフリーの画像でも、「顔が写っている人物の写真」はアップができない。

肖像権や著作権、プライバシーの侵害や悪用などの問題があるためなのかもしれない。

Geminiの人物の画像認識についての説明画像。

2025年4月時点では人物も認識可能になっています。)

画像認識機能についての補足。

人物や作品については慎重に。

フリー素材サイトにあるようなライセンスフリーの写真は、大抵は生成AI登場前からのもの。

そのため利用についてのルールや法整備が曖昧なこともあり、現時点では無料プランでの使用は厳しい。

AIの学習データにされる可能性がある。

また、自分や家族、友人知人の写真であっても、AIの学習データとして使用される恐れがあるので注意が必要。

Geminiの悪用や誤用のリスクも防げるため、個人や社会にとっては有益なことかと。


Geminiの画像認識の使い方。(日本語でもOK。)

Geminiの画像認識の手順。

画面下部の、メッセージ入力欄から。

Geminiの画面下部にある、メッセージ入力欄左横のアイコンをクリック。

左横の「+」アイコンをクリックし、画像を選択。パソコンやスマホなどから、画像ファイルをGeminiへアップロードする。

または、画像ファイルをそのままGeminiの入力欄へ、ドラッグ&ドロップしても可。

Geminiへ画像をアップロードするボタンの画像。

バージョンアップなどで画面のデザインが変わっていることがあります。)

画像をアップロードし、メッセージの入力欄に入力する。

メッセージは日本語対応済み。入力後は右横にある三角形の送信ボタンをクリックする。

Geminiへ画像をアップロードするボタンの画像。

Geminiが画像を認識して、説明をする。

まだ正確性に欠ける箇所もあるが、近いうちに改善されそう。生成AIの進化はとにかく速い。

Gemini 1.5の場合。(2023年8月)

Bard(Gemini)による画像の説明1。

Gemini 2.0 Flashの場合。(2025年4月)

Geminiによる画像の説明。

Gemini 2.5 Pro Experimentalの場合。(2025年4月)

Geminiの画像認識機能は写真だけじゃない。

グラフや表、スケッチなども認識。
Gemini 1.5の場合。(2023年8月)

写真だけでなく、グラフや表、スケッチなども認識できるとのこと。

ためしにボールペンの手書きで描いたエッフェル塔のスケッチをアップして聞いてみたところ、概ね正しい回答があった。

Gemini 1.5の場合。(2023年8月)

Bard(Gemini)による画像の説明2。

先月(2023年7月)までは下記の写真でも、人物の画像は未対応という理由で認識がされなかったが、今月(2023年8月)では認識できるようになっている。

Bard(Gemini)が画像認識できなかった画像。

画像認識や日本語対応がこれほどまでに速いとは。なんだかおっかなびっくり。


Geminiの画像認識で、人物の画像は未対応 → 対応に。

画像認識が人物の画像に対応。

人物の画像もアップロードできるように。
Sketch to Che Guevara. Sketch to Moe Tucker.

鉛筆によるスケッチ。

Sketch to CheChe Guevara
Sketch to Moe Tucker
Geminiとのやりとり。

2025年2月時点では、人物の絵や写真はまだ対応していないとのこと。

自分が描いた絵や、パブリックドメインのものでも不可。)

Bard(Gemini)とのやりとりの画面。

Bardの名前がGeminiに変わった後も、同様に対応されていなかった。

生成AIのルールが社会的に整備・認知されないうちは、非対応のままで良いのではないだろうか。


2025年4月 追記)

Geminiが人物の認識にも対応されている。

Geminiによる人物画の画像認識。

2025年4月時点では、人物も対応に。

Gemini 2.0 Flashの場合。(2025年4月)

Geminiによる人物の画像認識。

Gemini 2.5 Pro Experimentalの場合。(2025年4月)

Geminiによる人物の画像認識。

Gemini 2.5 Pro Experimentalの場合。(2025年4月)

Geminiによる人物の画像認識。

2025年8月31日 追記)

Geminiが生成した人物の認識にも対応されている。

GeminiによるAI生成人物の画像認識。

2025年8月下旬に、Gemini 2.5 Flash Image (Nano Banana)という、新しい画像生成・編集機能がリリース。

そこで、2024年3月にBard(現Gemini)によって生成された画像を使用し、その画像からGemini 2.5 Flash Imageでサングラスを外した生成画像をGeminiへ質問してみた。

Gemini 2.5 Flashの場合。(2025年8月)

AI生成による人物の、Geminiによる人物の画像認識。

すると、背景も含め、高い精度の回答が生成された。



2025年9月2日 追記)

画像の加工・編集にも対応されている。

Gemini 2.5 Flashの場合。(2025年9月)

画像の加工や編集用のモデルのNano Bananaが、Gemini 2.5 Flashへも搭載。

Geminiによる人物の画像認識と、プロンプトのスクショ。

プロンプト入力欄と画像ボタン。

テキストメッセージだけで変わらない場合は、入力欄にある「画像」ボタンを押した上で、指示文(プロンプト)送るとうまくいくかも。

Geminiへのプロンプト入力欄と、画像ボタンのスクショ。

生成された画像。

Geminiによる人物の画像編集加工と、プロンプトのスクショ。


Gemini利用時の注意点。

Geminiの年齢制限について。

年齢制限が色々と曖昧。
2025.02.19 追記)

Geminiアプリのプライバシーハブによると、生成された画像は、18歳未満のユーザーは利用できない。

最新情報は下記のページで確認可能。

Geminiアプリの年齢制限。(Android & iOS)

AndroidとiOSでのGeminiアプリでは12歳以上となっているので、小学生でも使用できることになる。

GeminiとGoogleアカウントの年齢制限。

GeminiやGoogleアカウントの利用は、13歳以上が対象。(日本の場合。)

いじめや誹謗中傷の原因にさせないためにも、念のため注意が必要かもしれない。

Geminiの商用利用について。

商用利用も注意が必要。

無料プランの場合は難しいと思われる。

Geminiに聞いてみると、Google AIが著作権を持つ可能性、追加ライセンスの必要性、将来的に変更される可能性、画風の元の著作権の影響などがあるとの回答。

当然と言えば当然であり、妥当と言えば妥当な回答。

Geminiで画像認識、アップロードや読み込みを覗き見する猫ちゃん。

以上、参考になれば幸いです。


AI 関連メモ。

ChatGPT 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。