Voice Engineという名の、音声合成技術。日本語の精度は? / いがわ

.

Memo

Voice Engineという名の、音声合成技術。ボイスチャット。

Voice Engineとは?

Voice Engineという名の、音声合成技術。

Voice Engineは、15秒の音声サンプルでその声を再現する。

OpenAIから「Voice Engine」という音声合成技術が発表されてから数ヶ月。

「Voice Engine」は、15秒間の音声サンプルがあれば、その声を基に、本人と同じような声でしゃべることができる。

母語だけでなく、翻訳技術とも組み合わせるため、ドラえもんの「ほんやくコンニャク」のようにもなる。


Voice Engineは、ロボット声ではない。

Voice Engineの声とセンス。

Voice Engineは、抑揚のある声でしゃべることができる。

Voice Engineは、いわゆる「ロボット声」とはまったく違う。

エンジンをふかしたり、ゆるめたりするように、声に強弱、抑揚がある。

現時点ですでに、ネイティブスピーカーでなければその違和感にも気づかないほどとも言われている。

ChatGPTがSiriやAlexaとは次元が違うレベルだったように、Voice EngineもまたSiriやAlexaとは違う次元にいる。

Live demo of GPT-4o realtime translation

GPT-4o発表時のChatGPTがこのレベルで話せるので、来年にはさらに、という感じになる。

引用元:OpenAI – YouTube


Voice Engineの日本語精度。

Voice Engineが話す日本語。

日本人が聞くと違和感はあるが、意味は十分通じる。

英語に比べると日本語を話すひとは少ないため、Voice Engineが話す日本語は、日本人が聞くと違和感を感じる。

それでも、話の内容は十分に伝わる。また、日本語の音声サンプルが増えると、精度も高くなっていくはず。

OpenAIのサイトのVoice Engine。

Voice Engineの日本語は、OpenAIのサイトでつぎの手順で聞ける。

  1. Generated audio(生成されたオーディオ)へ進む。
  2. Japanese(日本語)をクリック。
  3. 「▶︎」をクリック。

下記は画像。リンク先、引用元のOpenAIのページで確認できます。)

ブラウザによる日本語訳。

引用元:Navigating the challenges and opportunities of synthetic voices | OpenAI


Voice EngineやSoraの一般公開と、リスクと安全性。

OpenAIの理念と倫理は。

ルールや法整備が必要とされている。

OpenAIのサイトに記載されているように、リリースには慎重になっている。

動画生成AIのSoraがなかなか一般公開されないように。

医療へのVoice Engine。

Voice Engineは、病気などで声を出せないひとたちや、目の不自由なひとたちへの音声読み上げには大きな恩恵がある。

カーナビと読み聞かせ。

Voice Engineは、カーナビなどやスマートスピーカーにも活用できる。

ただし、子どもへの絵本の読み聞かせはどうなのだろう?
カーナビに、人間と区別がつかないような精度の声は必要だろうか?

Voice Engineの安全性。

現時点でもっとも考慮されているのは、安全面に問題を抱えていることだろう。

Soraも、Voice Engineも、いたずらや悪用のリスク、仕事がなくなってしまうひとたちへの影響を、容易に想定できる。

OpenAIは、新技術やあたらしい価値観だけでなく、そのあたりの理念や倫理観を持っているように思える。

Voice Engineの音声合成技術を考える猫たち。

以上、参考になれば幸いです。


Webデザインは実務数年、職業訓練校講師数年、フリーランス数年、計15年以上のキャリアがありますが、一気にがぁっと書いているので「です・ます調」ではありません。(元々はメモ書きでした。) 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ訂正いたします。 写真は主にUnsplashPixabayのフリー素材を利用させていただいております。その他の写真や動画もフリー素材やパブリックドメイン、もしくは自前のものを使用しております。

井川 宜久 / Norihisa Igawa
デザイナー、ディレクター、講師、コーチ / 井川宜久

AI 関連メモ。

ChatGPT 関連メモ。

DALL·E 関連メモ。

Sora 関連メモ。

Gemini 関連メモ。

Copilot、Bing 関連メモ。

Llama 関連メモ。

Claude 関連メモ。

Perplexity 関連メモ。


免責事項について

  • 記事ページ(Memosのページ)は当初は文字通りメモ書きでした。その後、修正や更新をしております。
  • 事実や経験、調査や検証を基にしていますが、万一なにかしら不備・不足などがありましたらすみません。お知らせいただければ早急に対応いたします。
  • 一個人のポートフォリオサイトですので、万一損害・トラブル等が発生した場合でも、一切の責任を負いかねます。