Bard(Gemini)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。 / いがわ

.

Memo

Geminiの画像認識の使い方。日本語でも可。

Bard(Gemini)が画像認識を開始。

Geminiで画像認識。

Googleレンズの機能で。

Google検索の際に現れる、画像検索用のGoogleレンズを使って、 Geminiは画像を認識できる。

無料で使え、Googleアカウントでログインすると、すぐに利用できる。

ログインしなくても使用可能。ただ、機能が限定的となるとのこと。)
2024年2月8日に、BardからGeminiに名称が変更。)

Geminiの画像認識は、日本語でも可。

画像認識機能について。

Geminiはすでに、日本語での画像認識に対応している。

ただし、「人物」はまだ認識されない。
ロイヤリティフリーの画像でも、「顔が写っている人物の写真」はアップができない。

肖像権や著作権、プライバシーの侵害や悪用などの問題があるためなのかもしれない。

Bard(Gemini)はまだ人物の画像認識には対応していない。

画像認識機能についての補足。

人物については慎重に。

「人物」については非常に厳しく、「絵」でもある程度写実的なものであればアップロードの時点で弾かれる。

参照:Bard – PaLM 2 を活用した、Google によるチャットベースの AI ツール

Geminiの悪用リスクも防げるため、社会にとっては有益なことかと思う。

2025年4月時点では人物も認識可能になっています。)
バージョンアップなどで画面のデザインが変わっていることがあります。)

Geminiの画像認識の使い方。(日本語でもOK。)

Geminiの画像認識の手順。

画面下部の、メッセージ入力欄から。

Geminiの画面下部にある、メッセージ入力欄左横のアイコンをクリック。

左横の「+」アイコンをクリックし、画像を選択。パソコンやスマホなどから、画像ファイルをGeminiへアップロードする。

または、画像ファイルをそのままGeminiの入力欄へ、ドラッグ&ドロップしても可。

Geminiへ画像をアップロードするボタンの画像。

画像をアップロードし、メッセージの入力欄に入力する。

メッセージは日本語対応済み。入力後は右横にある三角形の送信ボタンをクリックする。

Geminiへ画像をアップロードするボタンの画像。

Geminiが画像を認識して、説明をする。

まだ正確性に欠ける箇所もあるが、近いうちに改善されそう。生成AIの進化はとにかく速い。

Gemini 1.5の場合。(2023年8月)

Bard(Gemini)による画像の説明1。

Gemini 2.0 Flashの場合。(2025年4月)

Geminiによる画像の説明。

Gemini 2.5 Pro Experimentalの場合。(2025年4月)

Geminiの画像認識機能は画像だけじゃない。

グラフや表、スケッチなども認識。
Gemini 1.5の場合。(2023年8月)

写真だけでなく、グラフや表、スケッチなども認識できるらしい。

ためしにボールペンの手書きで描いたエッフェル塔のスケッチをアップして聞いてみたところ、概ね正しい回答があった。

Gemini 1.5の場合。(2023年8月)

Bard(Gemini)による画像の説明2。

先月(2023年7月)までは下記の写真でも、人物の画像は未対応という理由で認識がされなかったが、今月(2023年8月)では認識できるようになっている。

Bard(Gemini)が画像認識できなかった画像。

画像認識や日本語対応がこれほどまでに速いとは。なんだかおっかなびっくり。


Geminiの画像認識に、人物の画像は未対応 → 対応に。

画像認識が人物の画像に対応。

人物の画像もアップロードできるようになった。
Sketch to Che Guevara. Sketch to Moe Tucker.

鉛筆によるスケッチ。

Sketch to CheChe Guevara
Sketch to Moe Tucker
Geminiとのやりとり。

2025年2月時点でも、人物の絵や写真はまだ対応していないとのこと。

自分が描いた絵や、パブリックドメインのものでも不可。)

Bard(Gemini)とのやりとりの画面。

Geminiに変わった後も、同様に対応されていなかった。

生成AIのルールが社会的に整備・認知されないうちは、非対応のままで良いのではないだろうか。


2025年4月 追記)

Geminiが人物の認識にも対応に。

Geminiによる人物画の画像認識。
Gemini 2.0 Flashの場合。(2025年4月)

Geminiによる人物の画像認識。

Gemini 2.5 Pro Experimentalの場合。(2025年4月)

Geminiによる人物の画像認識。

Gemini 2.5 Pro Experimentalの場合。(2025年4月)

Geminiによる人物の画像認識。


Gemini利用時の注意点。

Geminiの年齢制限について。

年齢制限が色々と曖昧。
2025.02.19 追記)

Geminiアプリのプライバシーハブによると、生成された画像は、18歳未満のユーザーは利用できない。

Geminiアプリの年齢制限。(Android & iOS)

AndroidとiOSでのGeminiアプリでは12歳以上となっているので、小学生でも使用できることになる。

GeminiとGoogleアカウントの年齢制限。

GeminiやGoogleアカウントの利用は、13歳以上が対象。(日本の場合。)

いじめや誹謗中傷の原因にさせないためにも、念のため注意が必要かもしれない。

Geminiの商用利用について。

商用利用も注意が必要。

Googleの公式サイト上には明確な記載は見つからず。

Geminiに聞いてみると、Google AIが著作権を持つ可能性、追加ライセンスの必要性、将来的に変更される可能性、画風の元の著作権の影響などがあるとの回答。

当然と言えば当然であり、妥当と言えば妥当な回答。

Geminiで画像認識、アップロードや読み込みを覗き見する猫ちゃん。

以上、参考になれば幸いです。


AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。