はじめに
ChatGPT(会話形式で答えてくれるAIチャット)は今までより音声の反応速度が上がり、人と同じ反応速度になりました。
それが2024年5月14日に新機能として「GPT-4o」を発表しました。
今回はこのGPT-4oとは何か、新機能の実際の使い方などをご紹介します。
GPT-4oとは?
GPT-4oは英語以外の言語の精度の向上や、リアルタイム音声での会話も違和感なかったり、人と同じくらいのレベルで返答できる速度になっているということです。
また「GPT-4o」のoは「omni(オムニ)」の意味ですべて、全方位という意味がありますので、使える場面が増えたことを表しています。
今回の発表で音声入力が「232ミリ秒」になり、GPT-4oは人間の応答時間とほぼ同じで感情も見えるになりました。
GPT-4oを使う手順
すぐ使うには、ChatGPTの画像認識のGPT-4oを使うには「ChatGPT Plus(有料版)」の加入が必要です。
ChatGPT plus 有料版とは?そもそもChatGPTとは?ChatGPTはコンピュータとの会話を楽しむためのツールです。言い換えれば、コンピュータとおしゃべりできる友達のような存在です。ChatGPTに質問をすると、[…]
ただ、無料で使える機能もあるとのことで、どの機能が使えるかなどは今後の発表に注目です!
できる具体例
GPT-4oの発表で音声の反応がよくなったことで外で使うことでできる場面が増えました。
①同時通訳
デモ動画ではスマホの音声モードを用いた英語とイタリア語との同時翻訳も通訳者なしにできるレベルであることが紹介されています。
将来としては、もう複数言語を覚えて必要がない時代もくるかもしれません。
Realtime translation with GPT-4o pic.twitter.com/J1BsrxwYdE
— OpenAI (@OpenAI) May 13, 2024
②タクシー位置のリアルタイム確認
デモ動画では全盲の人が観光地の建物の写真から建物の説明を聞いたり、リアルタイムでタクシーの位置を教えてくれ、手を挙げるタイミングなども教えてくれています。
応用としては、全盲の方だけでなく、海外旅行者も建物や食べ物を撮影して自分たちの言語で説明を聞いたりすることができると思います。
@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024
③動画でのリアルタイム対話
デモ動画では犬を動画で撮影しつつ、犬の名前などをAIが自ら聞くという場面があります。
そのように何かを動画で撮影しつつ、リアルタイムで人との会話のように話しかけてくれます。
それも感情も嬉しいなどの音声の抑揚があるので、人と会話しているのか錯覚することができそうです。
応用としては、不登校になったり、人と話すことが怖いという人の最初の練習相手などにもできそうです。
Dog meets GPT-4o pic.twitter.com/5C0hlYq5ws
— OpenAI (@OpenAI) May 13, 2024
④対話の仲介役
デモ動画ではじゃんけんの掛け声をAIが担当しています。
応用としては、喧嘩した場合などにもAIが仲介することもできそうです。
Rock, Paper, Scissors with GPT-4o pic.twitter.com/Cy4r3vABtH
— OpenAI (@OpenAI) May 13, 2024
⑤リアルタイム動画での学習
デモ動画では動画で果物やぬいぐるみなどを映して、スペイン語学習の練習をしています。
応用としては、子供の言語学習や社会のルールなどを勉強することにも役立ちそうです。
Point and learn Spanish with GPT-4o pic.twitter.com/TdOy2w5eM6
— OpenAI (@OpenAI) May 13, 2024
まとめ
今回、音声やの速度UPなどでよりAIが人間らしくなっています。
動画なども撮影しつつ、リアルタイムで会話できることでより実際に使われる場面は増えていくでしょう。
AIの今年の発展にも期待したいと思います。