Contents - 目次
Voice Engineとは?
Voice Engineという名の、音声合成技術。
Voice Engineは、15秒の音声サンプルでその声を再現する。
OpenAIから「Voice Engine」という音声合成技術が発表されてから数ヶ月。
「Voice Engine」は、15秒間の音声サンプルがあれば、その声を基に、本人と同じような声でしゃべることができる。
母語だけでなく、翻訳技術とも組み合わせるため、ドラえもんの「ほんやくコンニャク」のようにもなる。
Voice Engineは、ロボット声ではない。
Voice Engineの声とセンス。
Voice Engineは、抑揚のある声でしゃべることができる。
Voice Engineは、いわゆる「ロボット声」とはまったく違う。
エンジンをふかしたり、ゆるめたりするように、声に強弱、抑揚がある。
現時点ですでに、ネイティブスピーカーでなければその違和感にも気づかないほどとも言われている。
ChatGPTがSiriやAlexaとは次元が違うレベルだったように、Voice EngineもまたSiriやAlexaとは違う次元にいる。
Live demo of GPT-4o realtime translation
GPT-4o発表時のChatGPTがこのレベルで話せるので、来年にはさらに、という感じになる。
引用元:OpenAI – YouTube
Voice Engineの日本語精度。
Voice Engineが話す日本語。
日本人が聞くと違和感はあるが、意味は十分通じる。
英語に比べると日本語を話すひとは少ないため、Voice Engineが話す日本語は、日本人が聞くと違和感を感じる。
それでも、話の内容は十分に伝わる。また、日本語の音声サンプルが増えると、精度も高くなっていくはず。
OpenAIのサイトのVoice Engine。
Voice Engineの日本語は、OpenAIのサイトでつぎの手順で聞ける。
- Generated audio(生成されたオーディオ)へ進む。
- Japanese(日本語)をクリック。
- 「▶︎」をクリック。
(※下記は画像。リンク先、引用元のOpenAIのページで確認できます。)
ブラウザによる日本語訳。
引用元:Navigating the challenges and opportunities of synthetic voices | OpenAI
Voice EngineやSoraの一般公開と、リスクと安全性。
OpenAIの理念と倫理は。
ルールや法整備が必要とされている。
OpenAIのサイトに記載されているように、リリースには慎重になっている。
動画生成AIのSoraがなかなか一般公開されないように。
医療へのVoice Engine。
Voice Engineは、病気などで声を出せないひとたちや、目の不自由なひとたちへの音声読み上げには大きな恩恵がある。
カーナビと読み聞かせ。
Voice Engineは、カーナビなどやスマートスピーカーにも活用できる。
ただし、子どもへの絵本の読み聞かせはどうなのだろう?
カーナビに、人間と区別がつかないような精度の声は必要だろうか?
Voice Engineの安全性。
現時点でもっとも考慮されているのは、安全面に問題を抱えていることだろう。
Soraも、Voice Engineも、いたずらや悪用のリスク、仕事がなくなってしまうひとたちへの影響を、容易に想定できる。
OpenAIは、新技術やあたらしい価値観だけでなく、そのあたりの理念や倫理観を持っているように思える。
以上、参考になれば幸いです。
※Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) ※事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 ※写真は主にUnsplashやPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。
AI 関連メモ。
ChatGPT 関連メモ。
- ChatGPT searchとは?使い方や、有料と無料、Googleとの違い。
- Chrome拡張機能、ChatGPT searchの使い方。自然言語、日常会話で検索。
- ChatGPTに検索機能。ChatGPT searchでWeb検索が可能に。
- MacとWindowsでもChatGPTと音声会話。Advanced Voiceが利用可能に。
- Advanced Voiceによる音声会話。ChatGPTとプラトニックな関係に?
- OpenAI o1の使い方。考えてから答える新しいChatGPTモデル。
- Voice Engineという名の、音声合成技術。日本語の精度は?
- SearchGPT。ChatGPTがAI検索エンジンに。使い方の例と順番待ちへの登録方法。
- GPT-4o miniが登場。ChatGPT無料版はGPT-3.5からバージョンアップ。
- ChatGPT無料ユーザーにもメモリ機能が。記憶や使い方の例。
- iPhoneやiPad、MacでChatGPT(GTP-4o)が。Apple Intelligence。
- 生成AIとWebデザイン、ChatGPTを活用したコーディングに必要なもの。
- ChatGPT最新モデル GPT-4oが無料でも。使える主な機能。
- ChatGPT(GPT-4o)で、PDF要約の精度を検証した結果。
- GPT-4o。ChatGPTと画像見ながら音声で会話?有料でも無料でも。
- ChatGPT無料版でも画像生成が可能に。有料版だけじゃない!?
- ChatGPT(チャットGPT)にアーカイブ機能が。復元も削除も。
- ChatGPT(チャットGPT)を日本語化。日本語設定の方法。
- ChatGPT(チャットGPT)との音声会話と、音声の変更方法。
- ChatGPTアプリのインストールとログイン方法、チャットの使い方。
- ChatGPT(チャットGPT)のスペルチェック、文章校正がむっちゃ楽。
- ChatGPT(チャットGPT)へのログイン方法。ログインできないとき。
- ChatGPTにプラグイン。広がる機能と使い方。最新情報へも。
- ChatGPTがLINEに?「AIチャットくん」の始め方、そして使い方。
- ChatGPTの始め方と使い方と。初心者向けシンプル版。
- ChatGPTはSVGアイコンを作れるのか?
- ChatGPTの文章作成やコーディング、SEO対策は変わるか?
DALL·E 関連メモ。
Sora 関連メモ。
- OpenAI Soraの短編映画。アーティストや映画制作者たち。
- OpenAIのSoraの公開デモから、Soraの仕組みをできるだけシンプルに。
- OpenAIからSora(動画生成AI)が広がる。デモやWebCMから一般公開へ。
Gemini 関連メモ。
- Google AI Studioの「Gemini 1.5 Pro 002とGemini Experimental 1114」にできること。
- Gemini 1.5 Pro 2Mモデル。Waitlistの登録手順。日本語上手なGoogle生成AI。
- BardからGeminiに。使い方はどう変わる?日本語対応は?
- Bard(Gemini)が絵を描けるように。テキストから画像生成の方法。
- Bard(Gemini)の画像認識の使い方。日本語対応済み、Googleレンズで画像読み取り。
- 最新情報を日本語かつ無料で使いたいときは、GoogleのBard?
- ChatGPTとBardの違い。なぜAIは日本語チャットが苦手なの?
- Bard(Gemini)が日本語対応。ログイン方法や最新情報など、使い方の例。
- BardでGemini。Googleの最新AIを無料で使う方法。
- GoogleのBardは、OpenAIのChatGPTを越えられるだろうか?
Copilot、Bing 関連メモ。
- ChatGPTとCopilotの違い。料金や、できることと、できないこと。
- Copilotとは? GPT-4とDALL·E 3が無料で使える生成AI。
- SkypeのBingチャット。GPT-4を日本語かつ無料で使える。& 注意点。
- BingのGPT-4、チャットの使い方。使えない?(今はまだ。)
- MacでGPT-4(ChatGPT最新版)を使う場合、Edgeが必要なのかも。
Llama 関連メモ。
- Llama 3.1登場。MetaのオープンソースAIとダウンロードサイト。
- Meta Horizon OSとApple Vision Pro。オープンかクローズか。
- Llama 3。無料でオープンソースなMeta AI最新モデル。
- Llama(ラマ)の使い方や日本語は? ダウンロード手順とブラウザ実装サイト。