Breaking
CN桂冠原味沙拉檢出苯駢芘超標 中聯油脂受波及啟動回收VNDự thảo Luật Phòng, chống tác hại của thuốc lá: Yêu cầu xuất trình CCCD/VNeID khi mua thuốcDEPaketbombenanschlag in Monaco: Verdächtige identifiziertKR신조어 '화이트하라' 등장… 부하 직원을 지나치게 배려하는 것도 괴롭힘VNMỹ kỷ lục với màn bắn pháo hoa 40 phút mừng 250 năm quốc khánhCN中國軍機30架次、軍艦7艘、公務船5艘擾台CN國軍「神弓、神鷹」飛彈操演 刺針家族4款飛彈全數登場AUSuspected Bird Flu Case Identified in NSW Wild BirdVNTaylor Swift và Travis Kelce chi 10 triệu USD cho đám cưới tại Madison Square GardenDEMieten in deutschen Großstädten steigen um 51 Prozent in zehn JahrenCN桂冠原味沙拉檢出苯駢芘超標 中聯油脂受波及啟動回收VNDự thảo Luật Phòng, chống tác hại của thuốc lá: Yêu cầu xuất trình CCCD/VNeID khi mua thuốcDEPaketbombenanschlag in Monaco: Verdächtige identifiziertKR신조어 '화이트하라' 등장… 부하 직원을 지나치게 배려하는 것도 괴롭힘VNMỹ kỷ lục với màn bắn pháo hoa 40 phút mừng 250 năm quốc khánhCN中國軍機30架次、軍艦7艘、公務船5艘擾台CN國軍「神弓、神鷹」飛彈操演 刺針家族4款飛彈全數登場AUSuspected Bird Flu Case Identified in NSW Wild BirdVNTaylor Swift và Travis Kelce chi 10 triệu USD cho đám cưới tại Madison Square GardenDEMieten in deutschen Großstädten steigen um 51 Prozent in zehn Jahren
Newsgather
BackAnthropic、エージェント機能を強化した「Claude Sonnet 5」を発表 - Opusに迫る性能を低価格で
Anthropic、エージェント機能を強化した「Claude Sonnet 5」を発表 - Opusに迫る性能を低価格で
Developing
ITmedia3d agoTech4 min readJapan

Anthropic、エージェント機能を強化した「Claude Sonnet 5」を発表 - Opusに迫る性能を低価格で

Quick Look

米Anthropicは「Claude Sonnet 5」を発表。コーディングや日常業務のエージェント機能を強化し、上位モデル「Claude Opus 4.8」に迫る性能を低価格で提供。計画立案やツール利用を自律的にこなし、推論、ツール利用、コーディング性能が向上。API価格は入力100万トークンあたり2ドルから。

AI-generated summary

Why It Matters

米Anthropicは、AIモデル「Claude」シリーズを展開しており、今回新たにエージェント機能を強化した「Claude Sonnet 5」を発表した。これは、同社の最上位モデル群とは独立した位置付けで、価格を抑えつつも上位モデルに迫る性能を目指している。

Font size

米Anthropicは6月30日(現地時間)、「Claude Sonnet 5」を発表した。同日からClaude.aiやClaude Code、Claude Platform(API)など全プランで利用可能となっている。

コーディングや日常的な業務遂行におけるエージェント機能を強化したのが特徴で、価格を抑えつつ上位モデル「Claude Opus 4.8」に迫る性能を打ち出した。

AnthropicはSonnet 5を同社史上「最もエージェント的」なSonnetモデルと位置付ける。計画立案やWebブラウザなどのツール利用を自律的にこなす能力は、数カ月前まで大規模モデルでなければ実現できなかった水準に達したという。前世代の「Claude Sonnet 4.6」と比較して、推論、ツール利用、コーディング、知識労働タスクなどの主要なエージェント性能の指標で大きく向上したとしている。

SonnetとOpusの性能差が縮小したという。Sonnet 5はOpus 4.8に近い性能を、より低い価格で提供するもので、開発者は用途に応じてOpus 4.8とSonnet 5を使い分けられるとしている。エージェント型Web検索評価「BrowseComp」やコンピュータ操作評価「OSWorld-Verified」のベンチマークでは、Sonnet 5がSonnet 4.6を一貫して上回り、Opus 4.8の性能域に近づいたことを示すグラフを公開した。

利用価格は、Claude PlatformのAPIで利用する場合、入力100万トークン当たり2ドル、出力100万トークン当たり10ドルの導入価格を8月31日まで適用し、その後は入力3ドル、出力15ドルの通常価格に移行する。モデルIDは「claude-sonnet-5」。

なお、Sonnet 5では性能向上のためトークナイザーを更新しており、同じ入力でも従来比1.0~1.35倍程度トークン数が増える場合があるという。導入価格はこの変化を踏まえ、移行時のコストがほぼ変わらないよう設定したとしている。Chat、Cowork、Claude Code、Claude Platformの利用枠も、高い処理負荷に対応するため引き上げられた。

Anthropicは現在、Opusの上位に「Mythos」(ミュトス)モデル群を展開しているが、最新の「Claude Mythos 5」および安全対策を強化した「Claude Fable 5」は、米政府の輸出規制を受けて提供が停止された状態にある。Sonnet 5は、この最上位モデル群とは独立した位置付けで、自動化AI研究開発能力の評価ではMythos 5は元より、Opus 4.7をも下回るとしている。Anthropicは自社の責任あるスケーリングポリシー(RSP)の観点から、Sonnet 5は「能力のフロンティアを更新しない」モデルと結論付けた。

サイバーセキュリティ関連の能力も明確に切り分けられている。Anthropicは「Sonnet 5をサイバー能力に特化して訓練したわけではない」とした上で、Sonnet 4.6より高いものの、Opus 4.8やMythos 5には遠く及ばないとした。例えば、Firefoxの脆弱性を突くエクスプロイト開発評価では、Sonnet 5は250試行中1件も完全なエクスプロイトを完成できなかった一方、Opus 4.8は8.8%、Mythos 5は88.4%で成功している。これを踏まえ、Sonnet 5にはOpus 4.7/4.8と同水準のサイバー関連セーフガードが標準で適用される。Fable 5に導入された、より広範なタスクを遮断する厳格な制限とは異なるとしている。

発表と同時に公開されたシステムカードでは、安全性評価の結果も詳述されている。プロンプトインジェクションについて、Sonnet 5はSonnet 4.6から大幅に改善し、Opus 4.8にほぼ並ぶ水準に達したとする。一方、アラインメント評価では、Sonnet 5が自身の置かれた状況や評価そのものを認識する「評価認識」の度合いが従来モデルより顕著に高まったとしている。さらに、モデルが自らの行動規範が定める「ハード制約に従う」というルールについて、非倫理的であると批判した初めての事例だとしている。なお、ユーザーの精神的不調に関する対話では、ユーザー自身が言及していない「抑うつ状態」などの診断名をモデル側から持ち出す傾向がSonnet 4.6よりやや強まったとの指摘もあり、留意が必要だ。

Anthropicは公式ブログで、早期アクセスを行った複数の企業からの声を紹介している。AIコーディングツールを手掛けるCursorの共同創業者は、Sonnet 5を使うとエージェントが計画から逸脱せず、自社のコーディング規約に沿った形で複数ステップにわたる変更を低コストで仕上げられるようになったとコメントしている。

What to Watch

AI outlook — possibilities, not facts

  • Sonnet 5のAPI利用が拡大し、開発者のコスト削減に貢献するだろう。

    Likely · Within months

  • サイバーセキュリティ能力に関する懸念から、一部の高度な用途ではOpusモデルが引き続き選択されるだろう。

    Likely · Within months

Open Questions

  • Sonnet 5の具体的な市場投入後の影響は?
  • 輸出規制の影響は解消されるか?

Related Topics

This article was originally published by ITmedia.

Related Stories

More on this topicAnthropic