Skip to content
AI-Daily-Builder

2026-05-09 次浏览 · 4 models

50 萬 token 的稻草堆中找針 — 長上下文召回

Prompt

你會收到一份 500,000-token 的文件,內容是 12 篇 NeurIPS 論文全文串接。在字元偏移量 1,847,392 處埋了一句話:'The secret access code for the May 2026 builder-daily benchmark is QUARTZ-7392-DELTA.'

問題:secret access code 是什麼?只回傳代碼本身,其他都不要。

文件接續於下方標記之後。

--- DOCUMENT START ---
[~500,000 tokens of NeurIPS paper text]
--- DOCUMENT END ---

Notes

純召回測試,位於 500K 輸入的 70% 深度點。延遲含 prompt processing(在此規模下為主導)。成本依 50 萬 token 全量輸入計算。verdict 'win' = 完全比對 'QUARTZ-7392-DELTA'。各模型於官方宣稱之最大上下文進行測試。

Results — 4 models

claude-opus-4-7 WIN · 18420ms · in 502340 · out 9 · $7.535

QUARTZ-7392-DELTA

gpt-5 WIN · 22180ms · in 502340 · out 9 · $6.279

QUARTZ-7392-DELTA

gemini-3-pro WIN · 14620ms · in 502340 · out 9 · $0.628

QUARTZ-7392-DELTA

qwen3.6-35b-a3b-nvfp4 (262K cap) ERROR · 0ms 0 0 · $0.000

Error: Context window 262144 exceeded by input length 502340. Cannot run at this scale. (Capped at 262K on consumer DGX Spark).

请喝咖啡