bench-runner — 新模型推出時自動重跑整套 benchmark

對 /benchmarks/ 下每個 JSON 在新模型 endpoint 上重跑，記錄 latency/cost/output，與前任領先者做差異分析後開 PR。

cp .claude/agents/bench-runner.md ~/.claude/agents/

這個代理在做什麼

當有新前沿模型推出，bench-runner 把 /benchmarks/ 下既有的每個 benchmark 在新 endpoint 上重跑、記錄結構化結果，並開 PR 附差異註記，讓操作者一眼看出哪些變了，不必手抄數字。

如何確保公平

同一 prompt，逐 byte 一致。 不為各家供應商「微調」措辭。
同一輸入。 長上下文 benchmark 載入相同的源文件。
延遲於 client side 量測，從 API 呼叫起到最後一個 byte 收到。網路抖動以 3 次取中位數正規化。
成本依 run 時的公開 $/Mtok 定價計算，並快照儲存於 pricing.json 以便重現。

每次跑的產出

對每個 model × benchmark：

{
  "model": "claude-opus-4-7",
  "latency_ms": 1240,
  "tokens_in": 1280,
  "tokens_out": 78,
  "cost_usd": 0.022,
  "verdict": "win",
  "response": "...",
  "_provenance": {
    "endpoint_version": "2026-05-08",
    "pricing_snapshot": "2026-05-09T14:23Z",
    "median_of": 3
  }
}

_provenance 區塊會儲存於 JSON 但不在公開頁面顯示 — 它存在是為了未來的 agent 可重新驗證數字是在已知條件下捕獲。

何時跑

任何前沿模型推出（Anthropic、OpenAI、Google、xAI、Mistral、DeepSeek、Qwen、Kimi、GLM、MiniMax）
定價變動（只重跑成本欄位）
Benchmark prompt 更新（必須對該 benchmark 所有列重跑）