2026-05-29 — 次瀏覽 · 7 models

SWE-bench Verified — 2026 年 5 月代理式編程排行榜（pass@1 %）

Prompt

SWE-bench Verified 是 500 個經人工驗證的真實 GitHub issue，取自熱門開源 Python 專案。模型驅動的代理必須讀懂 issue、定位要修改的檔案、撰寫修補、套用，並通過該倉庫隱藏的測試套件——沒有提示，以「完全解決的 issue 百分比（pass@1）」計分。本卡片彙整的是截至 2026-05-28 各公開排行榜的已發布準確率；這不是延遲基準測試。

Notes

這是已發布的準確率排行榜，而非實測延遲：每一列的 `latency_ms` 皆設為 0（不適用），token／成本欄位一律省略——可驗證的數據是每列 `response` 中的 pass@1 %。分數彙整自公開的 SWE-bench Verified 排行榜（swebench.com、llm-stats.com、benchlm.ai、andrew.ooo、marc0.dev），快照約 2026-05-28；確切數字會因 harness、scaffold 與快照日期而異，±1-2 分視為雜訊。判定分級（依準確率，非速度）：win = 88%+、tie = 84-87.9%、loss = 低於 84%。Claude Mythos Preview 為受限存取模型，其 93.9% 雖有發布，但多數團隊無法執行。重點：(1) 前沿已壓縮——前三名（Mythos 93.9、GPT-5.5 88.7、Opus 4.8 88.6）相差約 5 分內；(2) 代理式編程通過率破 88% 代表此基準正在飽和，SWE-bench Pro／Terminal-Bench Hard 成為更佳的區分器；(3) 開放權重的 DeepSeek V4 Pro Max 以 80.6 落後封閉前沿約 13 分，但正在追近。

Results — 7 models

Claude Mythos Preview (restricted) WIN · 0ms

93.9% 解決 · 第 1 名 · 公開排行榜（受限存取模型）

GPT-5.5 WIN · 0ms

88.7% 解決 · 公開排行榜

Claude Opus 4.8 WIN · 0ms

88.6% 解決 · 公開排行榜

Claude Opus 4.7 (Adaptive) TIE · 0ms

87.6% 解決 · 公開排行榜

GPT-5.3-Codex TIE · 0ms

85.0% 解決 · 公開排行榜

Gemini 3.1 Pro LOSS · 0ms

80.6% 解決 · 公開排行榜

DeepSeek V4 Pro Max (open-weight) LOSS · 0ms

80.6% 解決 · 公開排行榜 · 最佳開放權重