Skip to content
AI-Daily-Builder

2026-05-29 次瀏覽 · 7 models

SWE-bench Verified — 2026 年 5 月代理式編程排行榜(pass@1 %)

Prompt

SWE-bench Verified 是 500 個經人工驗證的真實 GitHub issue,取自熱門開源 Python 專案。模型驅動的代理必須讀懂 issue、定位要修改的檔案、撰寫修補、套用,並通過該倉庫隱藏的測試套件——沒有提示,以「完全解決的 issue 百分比(pass@1)」計分。本卡片彙整的是截至 2026-05-28 各公開排行榜的已發布準確率;這不是延遲基準測試。

Notes

這是已發布的準確率排行榜,而非實測延遲:每一列的 `latency_ms` 皆設為 0(不適用),token/成本欄位一律省略——可驗證的數據是每列 `response` 中的 pass@1 %。分數彙整自公開的 SWE-bench Verified 排行榜(swebench.com、llm-stats.com、benchlm.ai、andrew.ooo、marc0.dev),快照約 2026-05-28;確切數字會因 harness、scaffold 與快照日期而異,±1-2 分視為雜訊。判定分級(依準確率,非速度):win = 88%+、tie = 84-87.9%、loss = 低於 84%。Claude Mythos Preview 為受限存取模型,其 93.9% 雖有發布,但多數團隊無法執行。重點:(1) 前沿已壓縮——前三名(Mythos 93.9、GPT-5.5 88.7、Opus 4.8 88.6)相差約 5 分內;(2) 代理式編程通過率破 88% 代表此基準正在飽和,SWE-bench Pro/Terminal-Bench Hard 成為更佳的區分器;(3) 開放權重的 DeepSeek V4 Pro Max 以 80.6 落後封閉前沿約 13 分,但正在追近。

Results — 7 models

Claude Mythos Preview (restricted) WIN · 0ms

93.9% 解決 · 第 1 名 · 公開排行榜(受限存取模型)

GPT-5.5 WIN · 0ms

88.7% 解決 · 公開排行榜

Claude Opus 4.8 WIN · 0ms

88.6% 解決 · 公開排行榜

Claude Opus 4.7 (Adaptive) TIE · 0ms

87.6% 解決 · 公開排行榜

GPT-5.3-Codex TIE · 0ms

85.0% 解決 · 公開排行榜

Gemini 3.1 Pro LOSS · 0ms

80.6% 解決 · 公開排行榜

DeepSeek V4 Pro Max (open-weight) LOSS · 0ms

80.6% 解決 · 公開排行榜 · 最佳開放權重
請喝咖啡