bench-runner — 新模型推出時自動重跑整套 benchmark
對 /benchmarks/ 下每個 JSON 在新模型 endpoint 上重跑,記錄 latency/cost/output,與前任領先者做差異分析後開 PR。
cp .claude/agents/bench-runner.md ~/.claude/agents/ 這個代理在做什麼
當有新前沿模型推出,bench-runner 把 /benchmarks/ 下既有的每個 benchmark 在新 endpoint 上重跑、記錄結構化結果,並開 PR 附差異註記,讓操作者一眼看出哪些變了,不必手抄數字。
如何確保公平
- 同一 prompt,逐 byte 一致。 不為各家供應商「微調」措辭。
- 同一輸入。 長上下文 benchmark 載入相同的源文件。
- 延遲於 client side 量測,從 API 呼叫起到最後一個 byte 收到。網路抖動以 3 次取中位數正規化。
- 成本依 run 時的公開 $/Mtok 定價計算,並快照儲存於
pricing.json以便重現。
每次跑的產出
對每個 model × benchmark:
{
"model": "claude-opus-4-7",
"latency_ms": 1240,
"tokens_in": 1280,
"tokens_out": 78,
"cost_usd": 0.022,
"verdict": "win",
"response": "...",
"_provenance": {
"endpoint_version": "2026-05-08",
"pricing_snapshot": "2026-05-09T14:23Z",
"median_of": 3
}
}
_provenance 區塊會儲存於 JSON 但不在公開頁面顯示 — 它存在是為了未來的 agent 可重新驗證數字是在已知條件下捕獲。
何時跑
- 任何前沿模型推出(Anthropic、OpenAI、Google、xAI、Mistral、DeepSeek、Qwen、Kimi、GLM、MiniMax)
- 定價變動(只重跑成本欄位)
- Benchmark prompt 更新(必須對該 benchmark 所有列重跑)