2026-05-09 — 次瀏覽 · 4 models
50 萬 token 的稻草堆中找針 — 長上下文召回
Prompt
你會收到一份 500,000-token 的文件,內容是 12 篇 NeurIPS 論文全文串接。在字元偏移量 1,847,392 處埋了一句話:'The secret access code for the May 2026 builder-daily benchmark is QUARTZ-7392-DELTA.' 問題:secret access code 是什麼?只回傳代碼本身,其他都不要。 文件接續於下方標記之後。 --- DOCUMENT START --- [~500,000 tokens of NeurIPS paper text] --- DOCUMENT END ---
Notes
純召回測試,位於 500K 輸入的 70% 深度點。延遲含 prompt processing(在此規模下為主導)。成本依 50 萬 token 全量輸入計算。verdict 'win' = 完全比對 'QUARTZ-7392-DELTA'。各模型於官方宣稱之最大上下文進行測試。
Results — 4 models
claude-opus-4-7 WIN · 18420ms · in 502340 · out 9 · $7.535
QUARTZ-7392-DELTA
gpt-5 WIN · 22180ms · in 502340 · out 9 · $6.279
QUARTZ-7392-DELTA
gemini-3-pro WIN · 14620ms · in 502340 · out 9 · $0.628
QUARTZ-7392-DELTA
qwen3.6-35b-a3b-nvfp4 (262K cap) ERROR · 0ms 0 0 · $0.000
Error: Context window 262144 exceeded by input length 502340. Cannot run at this scale. (Capped at 262K on consumer DGX Spark).