2026-05-29 — ビュー · 7 models

SWE-bench Verified — 2026 年 5 月エージェント型コーディング・リーダーボード（pass@1 %）

Prompt

SWE-bench Verified は、人気オープンソース Python リポジトリから取った人手検証済みの実 GitHub issue 500 件。モデル駆動のエージェントは issue を読み、変更すべきファイルを特定し、パッチを書いて適用し、リポジトリの隠しテストスイートを通過させる——ヒントなし、「完全解決した issue の割合（pass@1）」で採点する。本カードは 2026-05-28 時点の公開リーダーボードの発表済み精度を集約したもので、レイテンシのベンチマークではない。

Notes

これは発表済みの精度リーダーボードであり、実測レイテンシではない：各行の `latency_ms` は 0（該当なし）に設定し、token／コスト列は全行省略——検証可能なデータは各行 `response` 内の pass@1 % だ。スコアは公開 SWE-bench Verified リーダーボード（swebench.com、llm-stats.com、benchlm.ai、andrew.ooo、marc0.dev）を 2026-05-28 頃にスナップショットして集約。正確な数値は harness・scaffold・スナップショット日で変わるため、±1-2 ポイントはノイズとみなす。判定区分（精度であって速度ではない）：win = 88%+、tie = 84-87.9%、loss = 84% 未満。Claude Mythos Preview は制限付きアクセスのモデルで、93.9% は報告されているが大半のチームは実行できない。要点：(1) フロンティアは圧縮された——上位 3（Mythos 93.9、GPT-5.5 88.7、Opus 4.8 88.6）は約 5 ポイント以内；(2) エージェント型コーディングの通過率が 88% 超ということは本ベンチが飽和しつつあり、SWE-bench Pro／Terminal-Bench Hard の方が良い識別器になりつつある；(3) オープンウェイトの DeepSeek V4 Pro Max は 80.6 でクローズドなフロンティアに約 13 ポイント遅れるが、差を詰めている。

Results — 7 models

Claude Mythos Preview (restricted) WIN · 0ms

93.9% 解決 · 第 1 位 · 公開リーダーボード（制限付きアクセス）

GPT-5.5 WIN · 0ms

88.7% 解決 · 公開リーダーボード

Claude Opus 4.8 WIN · 0ms

88.6% 解決 · 公開リーダーボード

Claude Opus 4.7 (Adaptive) TIE · 0ms

87.6% 解決 · 公開リーダーボード

GPT-5.3-Codex TIE · 0ms

85.0% 解決 · 公開リーダーボード

Gemini 3.1 Pro LOSS · 0ms

80.6% 解決 · 公開リーダーボード

DeepSeek V4 Pro Max (open-weight) LOSS · 0ms

80.6% 解決 · 公開リーダーボード · 最良のオープンウェイト