Gemini。GoogleのAI。
Geminiとは?
GoogleのマルチモーダルAI。
現代社会では、大量のWebサイトやスライド資料などでの情報収集で、文章&画像作成が必要不可欠。
仕事や学習、プライベートなど、さまざまな場面でそれらのスキルが求められる。
しかし、膨大な情報量を処理し、分かりやすくまとめることは、難易度の高い作業。
そんな課題を解決すべく、Google AIが2024年2月にリリースしたのが「Gemini」。
マルチモーダルとは何か?
AIにおけるマルチモーダルとは、要するに、複数の作業がひとつのAIでできるということ。
具体的には…
- 文章の生成。
- 画像の生成。
- 画像の認識。
- コードの生成。
- 音楽の生成。
など、複数の作業がひとつのAIで可能となる。
Geminiの問題と、現実的な使用感。
生成AIの競争過多による問題。
2022年11月のOpenAIによるChatGPTのリリースにより、急に生成AIに注目が集まり出した。
最近では様々なメディアで、連日のように、何らかの報道がされている。
ただ、行き過ぎ感や、過大な発表、評価がされているという指摘も増加傾向。
よく言われていた、早期のAIドクターやAI弁護士の実現は、まだまだ現実的ではない。
電力や半導体不足の問題。
また、AIを稼働させるための電力や、AI製品の主要なパーツとなる半導体生産が追いつかないという物理的な現状もある。
その結果、期待による製品発表と、実際の開発速度に乖離が出てきていると思われる。
Geminiの現時点での活用イメージ。
Geminiの強み。
Googleのサービスとの連携。
Google One AI プレミアムの活用や、Androidでの利用。
GoogleのAIなので、Google ○○との連携がしやすい。
- GmailやGoogle ドライブからの情報の取得、検索。
- Google スプレッドシートや Google ドキュメントとの連携、検索。
- Google マップや Google フライトを使っての計画立て。
- AndroidでのGoogle アシスタントとの切り替え。
参考:Google One AI プレミアム
参考:Google Gemini – Google Playのアプリ
画像認識。
画像の認識と検索、テキストでの説明。
検索はGoogleの得意分野であり、画像検索(Google レンズ)といった機能もある。
- 写真を撮って、名前を調べられる。
- 商品の画像から、使い方を聞ける。
- 食べ物の写真から、作り方を教えてもらえる。
- SNS投稿写真などの、キャプションを作成できる。
翻訳機能。
翻訳。
Google翻訳の精度が上がっているため、Geminiの翻訳もけっこう頼える。
使っている感じだと、DeepL翻訳と遜色がない。両方使うとより良いかもしれない。
(※お仕事ではネイティブスピーカーによる人間のチェックが無難。)
Geminiの課題。
画像生成。
テキストから画像の生成。
アイデアやイメージを掴みたいときに便利。ただし最初からイメージ通りの完成形はまず不可能。
Geminiのテキストだけでなく、画像編集ソフトと併用した方が早い。
- ロゴやアイコンの試作。
- イラストやキャラクターの試作。
- イメージモデルの試作。
(※2024年5月現在、英語のみ、人物生成不可、画像生成自体が不可などの制限あり。)
文章生成。
文章生成。
文章の生成はGeminiに限らず、無料版の生成AIでは機能が制限されている傾向にある。
用途としてはまだ、頭の整理のための壁打ちや、ブレインストーミングかもしれない。
AIによる全自動化も良いが、アイデア出しや雛形として最終的に人間が調整すると、いわゆる「心が込められた」文章となるだろう。
コード生成。
Hello, World!
コード生成もできるので、言語の学習やうまく使えばお仕事のお供にできそう。
ただし、現時点では以下の注意書きがされている。
提案されたコードまたはコーディングの説明はご自身の責任で使用してください。実際に使用する前に、すべてのコードについて、エラー、バグ、脆弱性がないか、ご自身の裁量でテストやレビューを慎重に行うことをおすすめします。
参照元:Gemini アプリでできること / その他のよくある質問
Python
# 標準出力に "Hello, World!" を出力する
print("Hello, World!")
PHP
<?php
// 標準出力に "Hello, World!" を出力する
echo "Hello, World!";
?>
Geminiが生成できる主なコンピュータ言語。
- Python
- PHP
- HTML
- CSS
- JavaScript
など。
Geminiの現時点での活用イメージ。
AIの急速な進歩。
まだまだ試行錯誤している感じだが、方向性は固まりつつある雰囲気となっている。
AIの発展は、医療、教育、文化、交通、経済など様々な分野で革新をもたらす可能性を秘めているが、同時に、倫理的な問題や社会への影響などの課題も伴う。
あまりに急速な進歩は品質の低下や悪用のリスクを招いてしまうので、今のままの成長速度でちょうど良いのかもしれない。
以上、参考になれば幸いです。
※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。
AI 関連メモ。
ChatGPT 関連メモ。
- ChatGPT searchとは?使い方や、有料と無料、Googleとの違い。
- Chrome拡張機能、ChatGPT searchの使い方。自然言語、日常会話で検索。
- ChatGPTに検索機能。ChatGPT searchでWeb検索が可能に。
- MacとWindowsでもChatGPTと音声会話。Advanced Voiceが利用可能に。
- Advanced Voiceによる音声会話。ChatGPTとプラトニックな関係に?
- OpenAI o1の使い方。考えてから答える新しいChatGPTモデル。
- Voice Engineという名の、音声合成技術。日本語の精度は?
- SearchGPT。ChatGPTがAI検索エンジンに。使い方の例と順番待ちへの登録方法。
- GPT-4o miniが登場。ChatGPT無料版はGPT-3.5からバージョンアップ。
- ChatGPT無料ユーザーにもメモリ機能が。記憶や使い方の例。
- iPhoneやiPad、MacでChatGPT(GTP-4o)が。Apple Intelligence。
- 生成AIとWebデザイン、ChatGPTを活用したコーディングに必要なもの。
- ChatGPT最新モデル GPT-4oが無料でも。使える主な機能。
- ChatGPT(GPT-4o)で、PDF要約の精度を検証した結果。
- GPT-4o。ChatGPTと画像見ながら音声で会話?有料でも無料でも。
- ChatGPT無料版でも画像生成が可能に。有料版だけじゃない!?
- ChatGPT(チャットGPT)にアーカイブ機能が。復元も削除も。
- ChatGPT(チャットGPT)を日本語化。日本語設定の方法。
- ChatGPT(チャットGPT)との音声会話と、音声の変更方法。
- ChatGPTアプリのインストールとログイン方法、チャットの使い方。
- ChatGPT(チャットGPT)のスペルチェック、文章校正がむっちゃ楽。
- ChatGPT(チャットGPT)へのログイン方法。ログインできないとき。
- ChatGPTにプラグイン。広がる機能と使い方。最新情報へも。
- ChatGPTがLINEに?「AIチャットくん」の始め方、そして使い方。
- ChatGPTの始め方と使い方と。初心者向けシンプル版。
- ChatGPTはSVGアイコンを作れるのか?
- ChatGPTの文章作成やコーディング、SEO対策は変わるか?
DALL·E 関連メモ。
Sora 関連メモ。
- OpenAI Soraの短編映画。アーティストや映画制作者たち。
- OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
- OpenAIからSora(動画生成AI)が広がる。デモやWebCMから一般公開へ。
Gemini 関連メモ。
- Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。
- Gemini 1.5 Pro 2Mモデル。Waitlistの登録手順。日本語上手なGoogle生成AI。
- BardからGeminiに。使い方はどう変わる?日本語対応は?
- Bard(Gemini)が絵を描けるように。テキストから画像生成の方法。
- Bard(Gemini)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。
- 最新情報を日本語かつ無料で使いたいときは、GoogleのBard?
- ChatGPTとBardの違い。なぜAIは日本語チャットが苦手なの?
- Bard(Gemini)が日本語対応。ログイン方法や最新情報など、使い方の例。
- BardでGemini。Googleの最新AIを無料で使う方法。
- GoogleのBardは、OpenAIのChatGPTを越えられるだろうか?
Copilot、Bing 関連メモ。
- ChatGPTとCopilotの違い。料金や、できることと、できないこと。
- Copilotとは? GPT-4とDALL·E 3が無料で使える生成AI。
- SkypeのBingチャット。GPT-4を日本語かつ無料で使える。& 注意点。
- BingのGPT-4、チャットの使い方。使えない?(今はまだ。)
- MacでGPT-4(ChatGPT最新版)を使う場合、Edgeが必要なのかも。
Llama 関連メモ。
- Llama 3.1登場。MetaのオープンソースAIとダウンロードサイト。
- Meta Horizon OSとApple Vision Pro。オープンかクローズか。
- Llama 3。無料でオープンソースなMeta AI最新モデル。
- Llama(ラマ)の使い方や日本語は? ダウンロード手順とブラウザ実装サイト。