2026-05-29 — 次浏览 · 7 models

SWE-bench Verified — 2026 年 5 月代理式编程排行榜（pass@1 %）

Prompt

SWE-bench Verified 是 500 个经人工验证的真实 GitHub issue，取自热门开源 Python 项目。模型驱动的代理必须读懂 issue、定位要修改的文件、编写修补、应用，并通过该仓库隐藏的测试套件——没有提示，以「完全解决的 issue 百分比（pass@1）」计分。本卡片汇整的是截至 2026-05-28 各公开排行榜的已发布准确率；这不是延迟基准测试。

Notes

这是已发布的准确率排行榜，而非实测延迟：每一行的 `latency_ms` 皆设为 0（不适用），token／成本字段一律省略——可验证的数据是每行 `response` 中的 pass@1 %。分数汇整自公开的 SWE-bench Verified 排行榜（swebench.com、llm-stats.com、benchlm.ai、andrew.ooo、marc0.dev），快照约 2026-05-28；确切数字会因 harness、scaffold 与快照日期而异，±1-2 分视为噪声。判定分级（按准确率，非速度）：win = 88%+、tie = 84-87.9%、loss = 低于 84%。Claude Mythos Preview 为受限访问模型，其 93.9% 虽有发布，但多数团队无法运行。重点：(1) 前沿已压缩——前三名（Mythos 93.9、GPT-5.5 88.7、Opus 4.8 88.6）相差约 5 分内；(2) 代理式编程通过率破 88% 代表此基准正在饱和，SWE-bench Pro／Terminal-Bench Hard 成为更佳的区分器；(3) 开放权重的 DeepSeek V4 Pro Max 以 80.6 落后封闭前沿约 13 分，但正在追近。

Results — 7 models

Claude Mythos Preview (restricted) WIN · 0ms

93.9% 解决 · 第 1 名 · 公开排行榜（受限访问模型）

GPT-5.5 WIN · 0ms

88.7% 解决 · 公开排行榜

Claude Opus 4.8 WIN · 0ms

88.6% 解决 · 公开排行榜

Claude Opus 4.7 (Adaptive) TIE · 0ms

87.6% 解决 · 公开排行榜

GPT-5.3-Codex TIE · 0ms

85.0% 解决 · 公开排行榜

Gemini 3.1 Pro LOSS · 0ms

80.6% 解决 · 公开排行榜

DeepSeek V4 Pro Max (open-weight) LOSS · 0ms

80.6% 解决 · 公开排行榜 · 最佳开放权重