OpenAI 言語の壁をなくす音声AI「Voice Engine」とは

OpenAI 言語の壁をなくす音声AI「Voice Engine」とは

OpenAI 言語の壁をなくす音声AI「Voice Engine」とは
スポンサーリンク

はじめに

2024年3月29日にChatGPTで一躍有名になったOpenAI社が人の声を再現するAI「Voice Engine(ボイスエンジン)」を発表しました。

2022年から開発されていたVoice EngineはChatGPTの音声の入出力や一部のOpenAI社のパートナーにも利用されていたということでした。

 

テキスト生成する「ChatGPT」や動画生成する「Sora」に続き、新たに発表された音声生成する「Voice Engine」はどんなものなのかを今回はご紹介します。

もし過去発表された「Sora」に興味のある方は以下の記事もご参照ください。

関連記事

はじめに2024年2月15日にChatGPTで一躍有名になったOpenAI社がテキストから動画が作れる「Sora」を発表しました。 AIでは動画は苦手な分野でしたが、このsoraはどんなものなのかを今回[…]

OpenAI 次世代動画AI「sora」解説

Voice Engineとは?

Voice Engineは15秒の短い音声サンプルがあれば、元の音声(イントネーションや感情)に近い音が生成できるというものです。

現状はこの機能は一般公開されておらず、 悪用の可能性があることも考慮され、Voice Engineの一般公開を見送る方針を示しました。

ただし検証の結果や反応によっては、開発者向けに広く公開することも検討しているようです。

スポンサーリンク

Voice Engineが作成した音声

では実際の音声データもご紹介します。

同じ言語の音声データから生成した音

①英語の15秒くらい音声サンプル

②上の①の音声から30秒程度のサッカーに関する物理の話を生成した例

スポンサーリンク

異なる言語から別の言語を生成した音

①英語の15秒くらい音声サンプル

②上の①の音声から20秒程度で日本語に変換された例

※英語のアクセントや音質から日本語を再現されたこともあり、少し違和感はある

Voice Engineでできること

たった15秒話すことでその音声を様々なことに変換できます。

①本などの読み上げ

自然に聞こえるロボットではない人間らしい感情豊かな音声を通じて、本を読まない人や子供たちに読書支援ができます。

また音声エンジンとChatGPT-4 を使用して生徒と対話するためのリアルタイムのパーソナライズされた応答を作成することもできるため、教育支援にも繋がります。

このテクノロジーにより幅広い視聴者向けにより多くのコンテンツを作成、視聴に繋がりそうです。

②コンテンツ翻訳

ビデオ翻訳に音声エンジンを使用し、話者の声を複数の言語に翻訳して、世界中の視聴者に届けることができます。

翻訳に使用される場合、音声エンジンは元の話者のネイティブのアクセントを保持できます。

たとえば、フランス語話者の音声サンプルを使用して英語を生成すると、フランス語のアクセントの音声が生成されます。

他の言語から日本語に変換する場合は多少イントネーションが違う可能性も高いですが、方言のような存在になっていくかもしれません。

③グローバル コミュニティ

地域の医療従事者が授乳中の母親へのカウンセリングなど、さまざまな重要なサービスを提供できるツールを構築できます。

言語のコミュニケーションに苦労していた壁が少なくなり、海外への進出や支援なども気軽にできる世界も近いかもしれません。

④言語に不十分な個人に対する支援

言語に影響を与える疾患を持つ個人に対する治療的アプリケーションや学習ニーズのある人々に対する教育の強化などにも使えそうです。

使用者は自分を最もよく聞きやすい音声を選択でき、多言語ユーザーの場合は各音声言語間で一貫した音声を聞けるかもしれません。

⑤言語障害患者の回復支援

突発性または変性言語障害に苦しむ患者の向けとして使うこともできます。

とあるプロジェクトでは学校用に録画したビデオの音声をVoice Engineのサンプル音声として使用し、血管性脳腫瘍により流暢な発話を失った若い患者の声を復元することができました。

Voice Engineの安全性と今後

合成音声は過去に米国で大統領をを使った偽電話が選挙に使われたこともあり、重大なリスクがあります。

現在、Voice Engineを検証しているパートナーは同意または法的権利なしに他の個人または組織になりすますことを禁止する使用ポリシーに同意して使っているそうです。

音声エンジンによって生成された音声の出所を追跡するための透かしや、音声の使用状況の事前監視など、一連の安全対策を実装しています。

また今後、個人の音声を保護するポリシーを検討したり、生成AIに関する教育なども必要であることもOpenAIのブログ記事には記載されています。

まとめ

先日の動画生成AIの「Sora」に続き、今後の未来を大きく変化しそうな音声生成の「Voice Engine」。

声がうまく出せない人や言語の壁などを感じていた人にとっては間違えなく、この技術により発展する世界になりそうです。

ただセキュリティーなどの課題も多く、人間がAIと共存するには悪用されないか、自分の身を守るためにも個人のAIの理解もますます必要になります。

 

PRサイト
「ChatGPTと何か?副業に挑戦したい、資格を取得したい、悩みがある」など解決できるオンライン学習おすすめサイトはこちら

 

  

 

 

 

スポンサーリンク