2026-05-29 — 조회 · 7 models
SWE-bench Verified — 2026년 5월 에이전트형 코딩 리더보드 (pass@1 %)
Prompt
SWE-bench Verified는 인기 오픈소스 Python 저장소에서 가져온, 사람이 검증한 실제 GitHub issue 500개다. 모델 구동 에이전트는 issue를 읽고, 수정할 파일을 찾고, 패치를 작성·적용해 저장소의 숨겨진 테스트 스위트를 통과해야 한다 — 힌트 없음, '완전히 해결한 issue 비율(pass@1)'로 채점한다. 이 카드는 2026-05-28 기준 공개 리더보드의 발표된 정확도를 집계한 것으로, 지연(latency) 벤치마크가 아니다.
Notes
이것은 발표된 정확도 리더보드이며 실측 지연이 아니다: 각 행의 `latency_ms`는 0(해당 없음)으로 설정하고 token/비용 열은 전부 생략했다 — 검증 가능한 데이터는 각 행 `response`의 pass@1 %다. 점수는 공개 SWE-bench Verified 리더보드(swebench.com, llm-stats.com, benchlm.ai, andrew.ooo, marc0.dev)를 2026-05-28경 스냅샷해 집계했다. 정확한 수치는 harness·scaffold·스냅샷 날짜에 따라 달라지므로 ±1-2점은 노이즈로 본다. 판정 등급(정확도 기준, 속도 아님): win = 88%+, tie = 84-87.9%, loss = 84% 미만. Claude Mythos Preview는 제한 접근 모델로 93.9%가 보고됐지만 대부분의 팀은 실행할 수 없다. 핵심: (1) 프런티어가 압축됐다 — 상위 3(Mythos 93.9, GPT-5.5 88.7, Opus 4.8 88.6)이 약 5점 이내; (2) 에이전트형 코딩 통과율이 88%를 넘었다는 것은 이 벤치가 포화 중이라는 뜻이며 SWE-bench Pro/Terminal-Bench Hard가 더 나은 변별자가 되고 있다; (3) 오픈웨이트 DeepSeek V4 Pro Max는 80.6으로 폐쇄 프런티어에 약 13점 뒤지지만 좁히고 있다.
Results — 7 models
Claude Mythos Preview (restricted) WIN · 0ms
93.9% 해결 · 1위 · 공개 리더보드(제한 접근)
GPT-5.5 WIN · 0ms
88.7% 해결 · 공개 리더보드
Claude Opus 4.8 WIN · 0ms
88.6% 해결 · 공개 리더보드
Claude Opus 4.7 (Adaptive) TIE · 0ms
87.6% 해결 · 공개 리더보드
GPT-5.3-Codex TIE · 0ms
85.0% 해결 · 공개 리더보드
Gemini 3.1 Pro LOSS · 0ms
80.6% 해결 · 공개 리더보드
DeepSeek V4 Pro Max (open-weight) LOSS · 0ms
80.6% 해결 · 공개 리더보드 · 최고 오픈웨이트