2026-05-29 — 次浏览 · 7 models
SWE-bench Verified — 2026 年 5 月代理式编程排行榜(pass@1 %)
Prompt
SWE-bench Verified 是 500 个经人工验证的真实 GitHub issue,取自热门开源 Python 项目。模型驱动的代理必须读懂 issue、定位要修改的文件、编写修补、应用,并通过该仓库隐藏的测试套件——没有提示,以「完全解决的 issue 百分比(pass@1)」计分。本卡片汇整的是截至 2026-05-28 各公开排行榜的已发布准确率;这不是延迟基准测试。
Notes
这是已发布的准确率排行榜,而非实测延迟:每一行的 `latency_ms` 皆设为 0(不适用),token/成本字段一律省略——可验证的数据是每行 `response` 中的 pass@1 %。分数汇整自公开的 SWE-bench Verified 排行榜(swebench.com、llm-stats.com、benchlm.ai、andrew.ooo、marc0.dev),快照约 2026-05-28;确切数字会因 harness、scaffold 与快照日期而异,±1-2 分视为噪声。判定分级(按准确率,非速度):win = 88%+、tie = 84-87.9%、loss = 低于 84%。Claude Mythos Preview 为受限访问模型,其 93.9% 虽有发布,但多数团队无法运行。重点:(1) 前沿已压缩——前三名(Mythos 93.9、GPT-5.5 88.7、Opus 4.8 88.6)相差约 5 分内;(2) 代理式编程通过率破 88% 代表此基准正在饱和,SWE-bench Pro/Terminal-Bench Hard 成为更佳的区分器;(3) 开放权重的 DeepSeek V4 Pro Max 以 80.6 落后封闭前沿约 13 分,但正在追近。
Results — 7 models
Claude Mythos Preview (restricted) WIN · 0ms
93.9% 解决 · 第 1 名 · 公开排行榜(受限访问模型)
GPT-5.5 WIN · 0ms
88.7% 解决 · 公开排行榜
Claude Opus 4.8 WIN · 0ms
88.6% 解决 · 公开排行榜
Claude Opus 4.7 (Adaptive) TIE · 0ms
87.6% 解决 · 公开排行榜
GPT-5.3-Codex TIE · 0ms
85.0% 解决 · 公开排行榜
Gemini 3.1 Pro LOSS · 0ms
80.6% 解决 · 公开排行榜
DeepSeek V4 Pro Max (open-weight) LOSS · 0ms
80.6% 解决 · 公开排行榜 · 最佳开放权重