AI

Opus 4.6に2ポイント差で5倍安い:Gemini 3.5 Flashが計算を書き換える

Susan Hill

Googleは月曜、Gemini 3.5 Flashを入力100万トークンあたり1.50ドル、出力100万トークンあたり9ドルで投入した。新モデルは毎秒280トークンを超える出力を維持し、前世代と同じ100万トークンのコンテキストウィンドウを保ち、Artificial Analysis Intelligence Indexで55点、Gemini 3 Flashを9点上回って着地している。火曜の朝までにr/AnthropicのスレッドはそのチャートをすでにClaude Opus 4.6の隣に並べ、この市場が半年回り続けてきた問いを投げかけていた。ベンチマーク2ポイントの優位は、どこから5倍の価格に見合わなくなるのか。

Intelligence Indexは推論、知識、コーディング、数学、エージェントタスクの公開評価をまとめ、1から100の一つのスコアにまとめる。Claude Opus 4.6は適応的推論モードで57点。5月19日に出たGemini 3.5 Flashは55点。バージョン間9点の上昇はFlashが単一世代で記録した最大の刻みで、新モデルが旧世代のAnthropicのSonnetを生の知能でSonnetの価格の一部で並ぶに足る幅だ。

Redditスレッドが用いた「賢い」というフレーミングは、Flashに有利に差を膨らませている。生のIntelligence Indexの上ではOpus 4.6が依然2ポイント先行する。スレッドを破裂させたチャートはIntelligence Index単体ではない。知能効率対コストのビューだ。そこでは軸が別の仕事をしており、Flash 3.5はOpus 4.6を単に上回るのではなく、近隣に誰もいない位置に座っている。

Opus 4.6は入力100万トークンあたり約6.25ドル、出力100万あたり25ドルを請求する。Flashは1.50と9を請求する。出力寄りに2対1で重みづけられたチャットロードでは、実効比率はスレッドが見出しに掲げた切りの良い「5倍」よりも4.5倍に近い。丸めはフェアだ。速度は旗艦にとって絵をさらに悪くする。Flash 3.5は毎秒280トークンを超える出力を維持し、Opus 4.6は最大努力推論モードで同じベンチマーク群でその約10分の1のペースで動く。ユーザーがカーソルを見つめる種類の製品 — コーディングアシスタント、サポートエージェント、あらゆるインタラクティブなフロー — では、レイテンシは価格が買い戻せない機能だ。

1年前、最も高いモデルを買う論拠は一行で済んだ。次のティアへの品質差が十分大きく、価格差は提供される価値に対する丸め誤差だった。スレッドが貼り付けたチャートは別のチャートだ。最後の2知能ポイントの限界費用がプロダクションロードに対する価格決定そのものとなり、丸め誤差はいま支出する6ドルあたり4.75ドルに近いところに着地している。

Opus 4.6をスタックに残す筋の通った理由はある。数百ページにわたる長文脈推論、ステップごとに誤差が積み上がるエージェントループ、集約スコアの2点差がはるかに大きなタスク固有の優位を隠している文書解析。Opusは故障モードが「答えが間違っていた」であって「答えが遅れた」でないとき、エンジニアが今でも手を伸ばすモデルだ。そう見えるプロダクションロードの割合は縮んでいる。ゼロではないし、まさに100万あたり25ドルが給料を稼ぐ帯だ。

請求対象トークンの大半を動かすチャット往復 — 下書き、要約、分類、翻訳、コード補完、顧客向け推論 — はすべてFlashの射程内にある。エンジニアリングチームが四半期ごとに自問する問いは、もはや「どのモデルが最良か」ではない。「許容できるレイテンシでドルあたり最も多く返すモデルはどれか」だ。その第二の問いを、Flashはいま解釈に細かい配慮を要しない差で勝っている。

スレッドの二次的フレーミング、すなわち「どこでもOpus 4.6が4.7より良いというコンセンサスがある」というのは、より柔らかく扱うに値する。逸話的だ。Anthropicの直近2バージョンのOpusは、コード評価とツール利用の厳密さで割れた評価を受けてきた。4.7で長尺のエージェントループに退行を報告するチームもあれば、同じロードで清々とした勝利を報告するチームもある。挙動がマイナーバージョン間で多軸調整されているとき、両方の観察が同時に真でありうる。両モデルは公開インデックスで互いに1点未満で並ぶため、コミュニティの分裂は能力ではなく趣味に近い。議論の外にあるのは、いずれのOpusの価格も動かないという事実だ。

Redditの会話における深いシグナルは、ユーザーが議論しなかった事柄だ。誰一人スレッドでOpusの価格を原則レベルで擁護しなかった。出てきた擁護はロード固有だった。「このエージェントループでOpusはなお私に勝つ」。「Opusは我々の文書レビューパイプラインに残る」。実在だが、それらはロードの擁護であって旗艦の擁護ではない。旗艦は領域全体で勝つはずで、特定の車線だけで勝つものではない。

知能差2ポイント。価格5倍。逆方向に速度6倍。100万トークンのコンテキストウィンドウを入力100万あたり1.50ドル。マルチモーダル入力、エージェントタスクEloは1650超、キャッシュ済み入力に90パーセント割引。Anthropicの次四半期の答えはそれ自身の物語を語る。書きにくいのは、2026年5月時点で、営業担当者が顧客との会議に持ち込まねばならない論拠の方だ。

ディスカッション

0件のコメントがあります。