OpenAIがリアルタイム音声AIモデル3種を公開！音声翻訳・文字起こしで何が変わる？

香奈枝

これ凄いです、まるで“ほんやくコンニャク”！？OpenAIがリアルタイム音声AIモデル3種を公開しました！

OpenAIは2026年5月7日、リアルタイム音声AIに関する新しい3つのモデルをAPIで公開しました。今回発表されたのは、音声対話・リアルタイム翻訳・リアルタイム文字起こしに特化したモデルです。
これにより、AIと「話す」「翻訳してもらう」「会話をその場で文字にする」といった体験が、さらに自然で実用的なものになっていきます。

今回の発表は、単なる音声入力や読み上げ機能の進化ではありません。人が話している最中にAIが理解し、考え、必要に応じて翻訳・文字起こし・行動まで行う方向へ進んでいる点が大きなポイントです。

まずは↓の動画を見てください。↓

新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason (@jxnlco) May 7, 2026

今回公開された3つのリアルタイム音声モデル
GPT-Realtime-2：AIと自然に会話できる音声モデル
GPT-Realtime-Translate：リアルタイム音声翻訳モデル
GPT-Realtime-Whisper：話している最中に文字起こし
何がすごいのか？ポイントは「リアルタイム」
活用が広がりそうな分野
料金と提供状況
注意点：AIであることを明示する必要がある
まとめ：音声AIは「話せるAI」から「通訳・記録・実行するAI」へ

今回公開された3つのリアルタイム音声モデル

OpenAIが発表したモデルは、次の3種類です。

モデル名	役割	できること
GPT-Realtime-2	音声対話	人と自然に会話しながら、複雑な依頼にも対応
GPT-Realtime-Translate	音声翻訳	70以上の入力言語を13の出力言語へリアルタイム翻訳
GPT-Realtime-Whisper	文字起こし	話している音声をリアルタイムでテキスト化

特に注目したいのは、音声翻訳モデル「GPT-Realtime-Translate」です。話している言葉をその場で別の言語に変換できるため、まるでドラえもんの「ほんやくコンニャク」のような体験に近づいていると言えます。

GPT-Realtime-2：AIと自然に会話できる音声モデル

GPT-Realtime-2は、音声で会話しながら、AIが内容を理解し、考え、必要な行動を取れるモデルです。

たとえば、ユーザーが話している途中で予定を変更したり、条件を追加したりしても、AIが会話の流れを保ちながら対応できます。OpenAIによると、GPT-Realtime-2はGPT-5クラスの推論能力を備えた音声モデルで、より難しい依頼にも対応しやすくなっています。

たとえば、以下のような使い方が考えられます。

カスタマーサポートの音声対応
旅行予約や予定変更の音声アシスタント
高齢者向けの音声相談サービス
学習サポートや会話練習
車の中や作業中に使える音声AI

これまでの音声AIは「聞き取って答える」印象が強かったのですが、今後は「会話しながら仕事を進めるAI」に近づいていきそうです。

GPT-Realtime-Translate：リアルタイム音声翻訳モデル

今回もっとも話題になりそうなのが、GPT-Realtime-Translateです。

このモデルは、70以上の入力言語に対応し、13の出力言語へリアルタイムで翻訳できます。話している人のペースに合わせて翻訳することを目指しており、カスタマーサポート、国際イベント、教育、メディア、クリエイター向けサービスなどでの活用が想定されています。

たとえば、次のような場面で便利です。

海外の人とリアルタイムで会話する
国際セミナーで同時通訳のように使う
商品説明動画を多言語で配信する
海外のお客様対応を音声で行う
観光地やホテルで多言語案内をする

ブログでは、ここを「まるでオリンピックの同時通訳」「ほんやくコンニャクのような世界」と表現すると、読者にイメージが伝わりやすくなります。

GPT-Realtime-Whisper：話している最中に文字起こし

GPT-Realtime-Whisperは、話している音声をリアルタイムで文字起こしするモデルです。OpenAIは、会議・授業・イベント・放送などで、その場で字幕や議事録を作る用途を想定しています。

これまでの文字起こしは、録音した音声をあとから変換する使い方が一般的でした。しかし、リアルタイム文字起こしが高精度になれば、会話が進んでいる最中に字幕・要約・記録が同時に作れるようになります。

たとえば、オンライン講座をしている人なら、講義中にリアルタイム字幕を出したり、講座終了後にすぐ要約記事を作ったりする活用が考えられます。

新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。 pic.twitter.com/pi3uIhm2xA
— jason (@jxnlco) May 7, 2026

何がすごいのか？ポイントは「リアルタイム」

今回の発表で重要なのは、「音声AIがリアルタイムに動く」という点です。

従来のAI活用では、音声を録音してから文字起こししたり、文章を入力して翻訳したりする流れが多くありました。しかし、今回のモデルでは、話しているその場でAIが反応します。

つまり、AIとのやり取りが「チャット」から「会話」へ、さらに「会話しながら仕事を進める」段階へ進んでいるのです。

活用が広がりそうな分野

今回のリアルタイム音声AIは、特に以下の分野で大きな可能性があります。

オンライン講座・教育

講師が話した内容をリアルタイムで字幕化したり、外国語に翻訳したりできます。将来的には、日本語の講座を海外向けにリアルタイム配信することも現実的になりそうです。

カスタマーサポート

電話対応やチャットサポートに音声AIを組み合わせることで、問い合わせ対応を効率化できます。多言語対応もできれば、海外のお客様にも対応しやすくなります。

観光・インバウンド

ホテル、観光案内所、飲食店などで、外国人観光客との会話をサポートできます。日本語しか話せないスタッフでも、音声AIを通して多言語対応しやすくなります。

会議・セミナー

会議の内容をその場で文字起こしし、要約や議事録作成につなげられます。海外メンバーとの会議では、リアルタイム翻訳も役立ちます。

動画・メディア配信

動画の音声をリアルタイムで翻訳・字幕化できれば、コンテンツを海外に届けやすくなります。YouTubeやオンライン教材との相性も良さそうです。

料金と提供状況

OpenAIによると、今回の3つのモデルはRealtime APIで利用できます。料金は、GPT-Realtime-2が音声入力100万トークンあたり32ドル、音声出力100万トークンあたり64ドル、GPT-Realtime-Translateが1分あたり0.034ドル、GPT-Realtime-Whisperが1分あたり0.017ドルとされています。

開発者はPlaygroundで新しいリアルタイム音声モデルを試すことができます。

注意点：AIであることを明示する必要がある

OpenAIは安全性についても説明しています。Realtime APIには複数の安全対策が組み込まれており、有害な内容が検出された場合には会話が停止されることがあります。また、開発者は、ユーザーがAIとやり取りしていることを明確に伝える必要があるとされています。

これは、今後の音声AI活用でとても重要なポイントです。人間のように自然に話せるAIだからこそ、「相手がAIであること」をきちんと示すことが信頼につながります。

まとめ：音声AIは「話せるAI」から「通訳・記録・実行するAI」へ

香奈枝

今年の夏休みは、是非この翻訳使って海外旅行行きたいですね！

OpenAIが公開した3つのリアルタイム音声モデルは、AIの使い方を大きく変える可能性があります。

これまでは、AIに文字で質問する使い方が中心でした。しかし今後は、AIに話しかけるだけで、翻訳してくれる、文字起こししてくれる、必要な作業を進めてくれるという世界が広がっていきます。

特に、リアルタイム音声翻訳は、言葉の壁を大きく下げる技術です。海外の人との会話、オンライン講座、観光、接客、動画配信など、さまざまな場面で活用が進むでしょう。

まさに、オリンピックの同時通訳のような体験が、個人や企業でも使える時代に近づいています。