2026-05-29 — ビュー · 7 models
SWE-bench Verified — 2026 年 5 月エージェント型コーディング・リーダーボード(pass@1 %)
Prompt
SWE-bench Verified は、人気オープンソース Python リポジトリから取った人手検証済みの実 GitHub issue 500 件。モデル駆動のエージェントは issue を読み、変更すべきファイルを特定し、パッチを書いて適用し、リポジトリの隠しテストスイートを通過させる——ヒントなし、「完全解決した issue の割合(pass@1)」で採点する。本カードは 2026-05-28 時点の公開リーダーボードの発表済み精度を集約したもので、レイテンシのベンチマークではない。
Notes
これは発表済みの精度リーダーボードであり、実測レイテンシではない:各行の `latency_ms` は 0(該当なし)に設定し、token/コスト列は全行省略——検証可能なデータは各行 `response` 内の pass@1 % だ。スコアは公開 SWE-bench Verified リーダーボード(swebench.com、llm-stats.com、benchlm.ai、andrew.ooo、marc0.dev)を 2026-05-28 頃にスナップショットして集約。正確な数値は harness・scaffold・スナップショット日で変わるため、±1-2 ポイントはノイズとみなす。判定区分(精度であって速度ではない):win = 88%+、tie = 84-87.9%、loss = 84% 未満。Claude Mythos Preview は制限付きアクセスのモデルで、93.9% は報告されているが大半のチームは実行できない。要点:(1) フロンティアは圧縮された——上位 3(Mythos 93.9、GPT-5.5 88.7、Opus 4.8 88.6)は約 5 ポイント以内;(2) エージェント型コーディングの通過率が 88% 超ということは本ベンチが飽和しつつあり、SWE-bench Pro/Terminal-Bench Hard の方が良い識別器になりつつある;(3) オープンウェイトの DeepSeek V4 Pro Max は 80.6 でクローズドなフロンティアに約 13 ポイント遅れるが、差を詰めている。
Results — 7 models
Claude Mythos Preview (restricted) WIN · 0ms
93.9% 解決 · 第 1 位 · 公開リーダーボード(制限付きアクセス)
GPT-5.5 WIN · 0ms
88.7% 解決 · 公開リーダーボード
Claude Opus 4.8 WIN · 0ms
88.6% 解決 · 公開リーダーボード
Claude Opus 4.7 (Adaptive) TIE · 0ms
87.6% 解決 · 公開リーダーボード
GPT-5.3-Codex TIE · 0ms
85.0% 解決 · 公開リーダーボード
Gemini 3.1 Pro LOSS · 0ms
80.6% 解決 · 公開リーダーボード
DeepSeek V4 Pro Max (open-weight) LOSS · 0ms
80.6% 解決 · 公開リーダーボード · 最良のオープンウェイト