Anthropic — 2026年6月9日
Claude / Mythos 5 と共に発表
API 即日提供開始
Software Engineering
Stripeが検証。500万行規模のコードベースで、従来2ヶ月を要していた作業を1日で完了した。ほぼすべてのソフトウェアエンジニアリングベンチマークでSOTAを記録。
Long Context
最長コンテキストウィンドウ全域で焦点を維持し続ける。長時間実行タスクでも、最初の指示を忘れない。
Vision
科学図表から正確な数値を抽出。スクリーンショット1枚からWebアプリのソースコードを再構築する視覚推論能力。
Life Sciences
Opus級モデルとの盲検比較で約80%選好。タンパク質設計では社内専門家の作業を約10倍高速化。ゲノミクスでは138種・数百万細胞のデータを処理し、Science誌掲載モデルを1/100のサイズで上回る。
Model Architecture
Mythos級の能力を持つ基盤モデルに、分類器ベースの安全装置を実装。サイバーセキュリティ・生物化学・蒸留攻撃対策の3層構造で、広範なユーザーに安全に提供する。
サイバーセキュリティ分野の安全装置を解除した研究者・特定企業向けバージョン。Project Glasswing参加企業に即日提供。生物学の信頼アクセスプログラムは数週間以内に開始予定。
Benchmark Performance
2ヶ月相当の作業を500万行のRubyコードベースで1日に圧縮。FrontierCodeで最高スコア(Cognition評価)。
タンパク質設計の高速化倍率。分子生物学の仮説生成では盲検比較でOpus級モデルより約80%選好された。
Science誌掲載モデルを1/100のサイズで上回る性能。138種の動物・数百万細胞のデータを処理。
金融ベンチマークでシニアレベル推論の最高スコア。IMC取引分析評価でもほぼ全項目優秀の評価を獲得。
Safety Architecture
悪意あるクエリを検知する分類器。フォールバックが起動するのは全セッションの5%未満。95%のセッションで通常利用に影響しない。
AAVウイルス設計などデュアルユース研究に対応した分類器。研究コミュニティへの貢献と悪用リスクを精密に分離する。
競合モデル開発への能力流出を防ぐ。Anthropicが持つ技術的優位性を、意図しない経路で失わないよう設計されている。
通常セッションに影響なし
フォールバック発動率(上限)
Independent Evaluation
FrontierCodeで最高スコアを記録。中程度の努力レベル設定でも同評価。コーディングエージェントの実用的上限を更新した。
金融ベンチマークでシニアレベル推論の最高スコア。高度な金融分析タスクにおける知識作業の質を独立評価で証明した。
取引分析評価でほぼ全項目優秀の評価を獲得。定量的推論と金融モデリングの両軸で他モデルを上回った。
Pricing & Availability
6月9日からAPIで即日提供開始。
Model Tier
※ Mythos級以上のモデルはログを30日間保持(訓練には不使用)