Google AIのGemini。情報検索と文章・画像生成の課題と強み。 / いがわ

.

Memo

Gemini。情報収集と画像認識&画像生成。活用方法。

Gemini。GoogleのAI。

Geminiとは?

GoogleのマルチモーダルAI。

現代社会では、大量のWebサイトやスライド資料などでの情報収集で、文章&画像作成が必要不可欠。

仕事や学習、プライベートなど、さまざまな場面でそれらのスキルが求められる。

しかし、膨大な情報量を処理し、分かりやすくまとめることは、難易度の高い作業。

そんな課題を解決すべく、Google AIが2024年2月にリリースしたのが「Gemini」。

マルチモーダルとは何か?

AIにおけるマルチモーダルとは、要するに、複数の作業がひとつのAIでできるということ。

具体的には…

  • 文章の生成。
  • 画像の生成。
  • 画像の認識。
  • コードの生成。
  • 音楽の生成。

など、複数の作業がひとつのAIで可能となる。

Geminiの問題と、現実的な使用感。

生成AIの競争過多による問題。

2022年11月のOpenAIによるChatGPTのリリースにより、急に生成AIに注目が集まり出した。

最近では様々なメディアで、連日のように、何らかの報道がされている。

ただ、行き過ぎ感や、過大な発表、評価がされているという指摘も増加傾向。

よく言われていた、早期のAIドクターやAI弁護士の実現は、まだまだ現実的ではない。

電力や半導体不足の問題。

また、AIを稼働させるための電力や、AI製品の主要なパーツとなる半導体生産が追いつかないという物理的な現状もある。

その結果、期待による製品発表と、実際の開発速度に乖離が出てきていると思われる。

Gemini。情報収集と画像認識と画像生成。活用と整理。


Geminiの現時点での活用イメージ。

Geminiの強み。

Googleのサービスとの連携。

Google One AI プレミアムの活用や、Androidでの利用。

GoogleのAIなので、Google ○○との連携がしやすい。

  • GmailやGoogle ドライブからの情報の取得、検索。
  • Google スプレッドシートや Google ドキュメントとの連携、検索。
  • Google マップや Google フライトを使っての計画立て。
  • AndroidでのGoogle アシスタントとの切り替え。

参考:Google One AI プレミアム
参考:Google Gemini – Google Playのアプリ

画像認識。

画像の認識と検索、テキストでの説明。

検索はGoogleの得意分野であり、画像検索(Google レンズ)といった機能もある。

  • 写真を撮って、名前を調べられる。
  • 商品の画像から、使い方を聞ける。
  • 食べ物の写真から、作り方を教えてもらえる。
  • SNS投稿写真などの、キャプションを作成できる。

翻訳機能。

翻訳。

Google翻訳の精度が上がっているため、Geminiの翻訳もけっこう頼える。

使っている感じだと、DeepL翻訳と遜色がない。両方使うとより良いかもしれない。

お仕事ではネイティブスピーカーによる人間のチェックが無難。)

Geminiの課題。

画像生成。

テキストから画像の生成。

アイデアやイメージを掴みたいときに便利。ただし最初からイメージ通りの完成形はまず不可能。

Geminiのテキストだけでなく、画像編集ソフトと併用した方が早い。

  • ロゴやアイコンの試作。
  • イラストやキャラクターの試作。
  • イメージモデルの試作。

2024年5月現在、英語のみ、人物生成不可、画像生成自体が不可などの制限あり。)

文章生成。

文章生成。

文章の生成はGeminiに限らず、無料版の生成AIでは機能が制限されている傾向にある。

用途としてはまだ、頭の整理のための壁打ちや、ブレインストーミングかもしれない。

AIによる全自動化も良いが、アイデア出しや雛形として最終的に人間が調整すると、いわゆる「心が込められた」文章となるだろう。

コード生成。

Hello, World!

コード生成もできるので、言語の学習やうまく使えばお仕事のお供にできそう。

ただし、現時点では以下の注意書きがされている。

提案されたコードまたはコーディングの説明はご自身の責任で使用してください。実際に使用する前に、すべてのコードについて、エラー、バグ、脆弱性がないか、ご自身の裁量でテストやレビューを慎重に行うことをおすすめします。

参照元:Gemini アプリでできること / その他のよくある質問

Python
# 標準出力に "Hello, World!" を出力する

print("Hello, World!")
PHP
<?php

// 標準出力に "Hello, World!" を出力する

echo "Hello, World!";

?>
Geminiが生成できる主なコンピュータ言語。
  • Python
  • PHP
  • HTML
  • CSS
  • JavaScript
  • など。


Geminiの現時点での活用イメージ。

AIの急速な進歩。

まだまだ試行錯誤している感じだが、方向性は固まりつつある雰囲気となっている。

AIの発展は、医療、教育、文化、交通、経済など様々な分野で革新をもたらす可能性を秘めているが、同時に、倫理的な問題や社会への影響などの課題も伴う。

あまりに急速な進歩は品質の低下や悪用のリスクを招いてしまうので、今のままの成長速度でちょうど良いのかもしれない。

Gemini。情報収集と画像認識と画像生成。活用方法。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。