Builder Daily

bench-runner — 新模型推出時自動重跑整套 benchmark

對 /benchmarks/ 下每個 JSON 在新模型 endpoint 上重跑,記錄 latency/cost/output,與前任領先者做差異分析後開 PR。

cp .claude/agents/bench-runner.md ~/.claude/agents/

這個代理在做什麼

當有新前沿模型推出,bench-runner/benchmarks/ 下既有的每個 benchmark 在新 endpoint 上重跑、記錄結構化結果,並開 PR 附差異註記,讓操作者一眼看出哪些變了,不必手抄數字。

如何確保公平

每次跑的產出

對每個 model × benchmark:

{
  "model": "claude-opus-4-7",
  "latency_ms": 1240,
  "tokens_in": 1280,
  "tokens_out": 78,
  "cost_usd": 0.022,
  "verdict": "win",
  "response": "...",
  "_provenance": {
    "endpoint_version": "2026-05-08",
    "pricing_snapshot": "2026-05-09T14:23Z",
    "median_of": 3
  }
}

_provenance 區塊會儲存於 JSON 但不在公開頁面顯示 — 它存在是為了未來的 agent 可重新驗證數字是在已知條件下捕獲。

何時跑

請喝咖啡