OpenAIの新音声モデルは音声ループの中で考える──AIを露呈させてきた「沈黙」が消える

OpenAIは今週、Realtime APIに3つの新しい音声モデル──GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper──を投入した。本命は1つ目だ。同社はこれを「GPT-5級の推論」を備えた最初の音声モデルと位置づけ、入力音声と出力音声を一つのモデルが扱い、思考を文字起こしと音声合成の合間に押し込むのではなく会話の中に織り込む設計にしたとしている。裏付けとなる数字も具体的だ。Big Bench Audioのスコアは前世代の参照モデルに対して81.4パーセントから96.6パーセントに跳ね上がった。Audio MultiChallengeは34.7パーセントから48.5パーセントへ。コンテキストウィンドウは32,000トークンから128,000トークンに拡張された──通話一本分の顧客履歴をまるごと抱えられる広さである。

構造的な変化は、ベンチマークでは見えにくい。この3年間、本番環境で音声エージェントを動かしたい者は誰もが、自分でスタックを縫い合わせる必要があった。WhisperかDeepgramで文字起こしし、LLMで推論し、ElevenLabsかCartesiaで声に戻し、レイテンシを誤魔化すためのプロンプトを書く、という具合だ。ピース間のジャンプはミリ秒と明瞭さを毎回奪っていった。ユーザーが聞いていたのは、スクリプトで埋め込まれた「少々お調べいたします」、続いてモデルが考えている間の無音、そして最後に答え、という三幕劇である。GPT-Realtime-2は、その足場をネイティブの挙動として持ち込んだ。プリアンブルはエージェントがツールを呼び出している間に「少々お調べいたします」と発話することを可能にし、ユーザーを沈黙の中に座らせない。並列ツール呼び出しは、複数のバックエンド要求を同時に発射し、どれが進行中かを語らせる。リカバリ挙動は失敗を会話のフリーズではなく、表に出して扱う。

開発者に開かれた制御面が、もっとも興味深い部分だ。「推論努力(reasoning effort)」が設定可能になっている──minimal、low、medium、high、xhigh──既定値はlowで、単純なリクエストではレイテンシを抑えに行く。「閉店は何時ですか」に答えるエージェントにはGPT-5級の推論はいらない。返金紛争を顧客に寄り添って整理するエージェントには要る。同じモデルに、ターンごとにどれだけ深く考えるかを命じられるという点が、推論の深さが固定で、デプロイ時に「速さ」か「賢さ」のいずれかを選ぶしかなかった旧モデルからの実質的な変化である。

懐疑の余地は残しておきたい。「GPT-5級の推論」はマーケティングの言い回しであって、検証可能な主張ではない。現実的な対話を対象にした独立ベンチマークがない以上、比較は社内の話に留まる。音声エージgentにはベンチマークが拾いにくい固有の故障モードがある。落ち着いた自然な声で誤った内容を言い切ってしまう、あの瞬間だ。推論が良くなることは助けにはなるが、それを消し去るわけではない。価格も重い。GPT-Realtime-2は音声入力トークン100万あたり32ドル、出力100万あたり64ドル。GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは0.017ドル。大量の顧客対応には十分に安い。一方、会話を続けさせる消費者向け製品で雑に使えるほどには安くない──各セッションの長さを設計段階で考えるべき価格帯である。

実装の文脈が物語の残りを語る。Zillowは同日に音声による住宅検索を稼働させた。ドイツテレコムは欧州14市場でライブ翻訳を伴う音声サポートを展開した。両者ともOpenAIが価格設定で狙っている用途そのものだ──長く、取引性が高く、文脈の濃い会話。エージェントが本当に「推論」してくれることがユーザーの利得になる場面である。Pricelineは、ホテル予約の管理とフライト遅延の追跡をすべて声で完結できるシステムを作っている。OpenAIが最初に名前を出してくる顧客の傾向は明快で、これまで音声システムが最も機能していなかった現場──コールセンター、サポート回線、取引型の旅行手続き──が並ぶ。電話に向かって「オペレーター」と叫び続けてきた、まさにその場所である。

モデルはRealtime APIで現在利用可能だ。ChatGPT本体への音声アップグレードはまだ保留──「お楽しみに、いま仕込み中です」とOpenAIは言う。サム・アルトマンは今回のローンチを行動様式の変化に位置づけた。ユーザーは大量の文脈を「投げ込みたい」ときに、AIに対して声を選ぶ場面が増えている、と。そのパターンが続くなら、音声AIとテキストAIの差は閉じ始める──そして電話越しにAIを露呈させてきたあの継ぎ目は、ますます聞き取りにくくなる。