Google AIのGemini。情報検索と文章・画像生成の課題と強み。デザイナー、コーチ、ディレクター / いがわ

.

Memo

Gemini。情報収集と画像認識&画像生成。活用方法。

Gemini。GoogleのAI。

Geminiとは?

GoogleのマルチモーダルAI。

現代社会では、大量のWebサイトやスライド資料などでの情報収集で、文章&画像作成が必要不可欠。

仕事や学習、プライベートなど、さまざまな場面でそれらのスキルが求められる。

しかし、膨大な情報量を処理し、分かりやすくまとめることは、難易度の高い作業。

そんな課題を解決すべく、Google AIが2024年2月にリリースしたのが「Gemini」。

マルチモーダルとは何か?

AIにおけるマルチモーダルとは、要するに、複数の作業がひとつのAIでできるということ。

具体的には、文章の生成、画像の生成、画像の認識、音楽の作成など、複数の作業がひとつのAIで可能となる。

Geminiの問題と、現実的な使用感。

生成AIの競争過多による問題。

2022年11月のOpenAIによるChatGPTのリリースにより、急に生成AIに注目が集まり出した。

最近では様々なメディアで、連日のように、何らかの報道がされている。

ただ、行き過ぎ感や、過大な発表、評価がされているという指摘も増加傾向。

よく言われていた、早期のAIドクターやAI弁護士の登場は、現実視されなくなった。

電力や半導体不足の問題。

また、AIを稼働させるための電力や、AI製品の主要なパーツとなる半導体生産が追いつかないという物理的な現状もある。

その結果、期待による製品発表と、実際の開発速度に乖離が出てきていると思われる。

Gemini。情報収集と画像認識と画像生成。活用と整理。


Geminiの現時点での活用イメージ。

Geminiの強み。

Googleのサービスとの連携。

Google One AI プレミアムの活用や、Androidでの利用。

GoogleのAIなので、Google ○○との連携がしやすい。

  • GmailやGoogle ドライブからの情報の取得、検索。
  • Google スプレッドシートや Google ドキュメントとの連携、検索。
  • Google マップや Google フライトを使っての計画立て。
  • AndroidでのGoogle アシスタントとの切り替え。

参考:Google One AI プレミアム
参考:Google Gemini – Google Playのアプリ

画像認識。

画像の認識と検索、テキストでの説明。

検索はGoogleの得意分野であり、画像検索(Google レンズ)といった機能もある。

  • 写真を撮って、名前を調べられる。
  • 商品の画像から、使い方を聞ける。
  • 食べ物の写真から、作り方を教えてもらえる。
  • SNS投稿写真などの、キャプションを作成できる。

翻訳機能。

翻訳。

Google翻訳の精度が上がっているため、Geminiの翻訳もけっこう頼える。

使っている感じだと、DeepL翻訳と遜色がない。両方使うとより良いかもしれない。

お仕事ではネイティブスピーカーによる人間のチェックが無難。)

Geminiの課題。

画像生成。

テキストから画像の生成。

アイデアやイメージを掴みたいときに便利。ただし最初からイメージ通りの完成形はまず不可能。

Geminiのテキストだけでなく、画像編集ソフトと併用した方が早い。

  • ロゴやアイコンの試作。
  • イラストやキャラクターの試作。
  • イメージモデルの試作。

2024年4月現在、英語のみ、人物生成不可など、機能制限あり。)

文章生成。

文章生成。

文章の生成はGeminiに限らず、無料版の生成AIでは機能が制限されている傾向にある。

日常会話はできるが、仕事用としては難があり、そもそも仕事のやり取りをAI任せにするということにも、疑問や時間の余地が生じる。

アイデア出しや雛形には良いが、AIによる全自動化はどうなのだろう?

おもてなしのこころ。

業務用の自動生成や自動返信は、現時点では不自然と感じる場合が多い

東京オリンピック前に大きな話題となった、日本の良さ、「おもてなし」の精神を自ら放棄することにもなる。

詩や小説、俳句などはなおさらで、AI生成とわかった時点で、正直、喜ばれないだろう。

プライベートな手紙などであれば、むしろ引かれてしまいそう。

用途としてはまだ、頭の整理のための壁打ちやブレインストーミングかもしれない。

Gemini。情報収集と画像認識と画像生成。活用方法。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。
DALL·E 関連メモ。
Sora 関連メモ。
Gemini 関連メモ。
Copilot、Bing 関連メモ。
Llama 関連メモ。

免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。