Claude Opus 4.8、自らのコードの不具合を4倍多く検知

Anthropicは最上位モデルをClaude Opus 4.8に更新した。中心となる変化は「頭が大きくなった」ことではなく「慎重になった」ことだ。同社によれば、本モデルは自ら書いたコードの欠陥を指摘せず見逃す確率が前世代より約4倍低く、確信が持てない部分を自分から示すようになったという。コードを書く、分析を回す、コンピューターを操作する、いずれであれ実務をAIに任せる側にとって、この信頼性こそが本当に効く性能だ。

いまのAIエージェントの弱点は、愚かさではなく自信だ。完成して見え、すらすら読める出力を返しながら、内側に静かな誤りを抱える。放っておけば、前の誤りの上に次の一手を積み上げていく。多段階の作業を任せると、最初のたった一つの誤った前提が後続のすべてに広がり、仕事は一見そろっているのに、気づかれないまま壊れている。自らの迷いを塗りつぶさず示すモデルは、人がどこを見ればよいか分かるため、監督しやすい。

最も分かりやすい証拠はコードにある。Anthropicは、Opus 4.8が生成コードの欠陥を印を付けずに見逃す例が大幅に減ったと述べる。レビューではなく本番で表面化する、あの静かなバグだ。早期に試した投資会社のBridgewater Associatesは、本モデルが分析の入力と出力の双方の問題を自発的に指摘した、他のシステムが日常的に見落としていた点だと語った。知識労働や金融で危ういのは、まさに誰も間に合って捕まえられない誤りだ。

ベンチマークの数字はこの見立てを支えるが、本筋ではない。Opus 4.8は、実際のソフトウェア開発課題で組まれたSWE-Bench Proで69.2パーセントを得たとされ、OpenAIのGPT-5.5やGoogleのGemini 3.1 Proを上回った。Anthropic自身の計測では、あるコーディング試験のあらゆる労力水準で過去のOpusをすべて上回り、法的推論の試験では同社最高の記録を出した。差は本物だが僅差であり、ベンチマークの勝利は、地味な作業を一日中こなすときの振る舞いをうまく予言しない。

モデルには新しい道具が伴う。Claude Code内のリサーチプレビュー機能、dynamic workflowsは、Opusが大きな仕事を計画し、その後ひとつのセッションで数百のサブエージェントを並列に走らせることを可能にする。数十万行に及ぶ移行を想定し、プロジェクト既存のテストスイートを合否の基準に置く。さらにClaude.aiと同社のCowork環境の新しい操作は、ある応答にモデルがどれだけの労力と、どれだけのトークンを費やすかを利用者が選べるようにする。

留保は約束のすぐ隣にある。信頼性の向上は大部分がAnthropic自身の試験に依拠し、「4倍低い」といった数字は社内計測であって独立監査を経たものではない。誠実さも外からは検証しにくい。モデルは自らの不確かさを宣言したうえで誤りうるし、見当違いのところで旗を上げることもある。dynamic workflowsはプレビューにとどまり、完成機能ではない。速度の話も聞こえほど気前は良くない。高速モードは標準料金の2倍で、安いと呼べるのは従来の上位価格と比べてのことにすぎない。

費用を見る向きには、標準アクセスは入力100万トークンあたり5ドル、出力100万あたり25ドルで据え置き、前のOpusと同じだ。高速モードは100万あたり10ドルと50ドルで、約2.5倍の速さで動く。新しい労力の操作は、品質のつまみであると同時に予算の道具でもある。Claude Opus 4.8はいまからAnthropicの開発者向けAPIでclaude-opus-4-8の名で利用でき、同社は同日にどこでも展開すると述べる。登場は木曜で、Opus 4.7からおよそ6週間という異例の短さだった。前バージョンへの反応が芳しくなかったことと、OpenAIやGoogleの競合投入が続いたことを受けての更新だ。本当の試金石は、自らを疑うよう鍛えたモデルが、順位表で輝くよう鍛えたモデルより日々の仕事で役立つかどうかであり、その判定は人が実際に走らせるエージェントが下す。

タグ: Anthropic, Claude Code, AI reasoning, Claude Opus 4.8, Generative AI, LLM