標籤 · #coding-agents

OpenAI 收購 Ona（前身 Gitpod），為 Codex 代理提供持久、安全的雲端執行環境

為什麼值得讀代理式編程的競爭，重心已從模型品質轉向執行環境。OpenAI 買下的是那些枯燥而困難的基礎設施——持久性、沙箱、稽核——它們才能把聰明的代理變成可部署的代理。

OpenAI 收購 Ona——前身為 Gitpod 的雲端開發環境公司——讓 Codex 代理能在持久、由客戶掌控、可稽核的環境中執行更長時間的任務。

為什麼值得讀重點不是 1.5 兆的參數量，而是訓練語料。以 Cursor 真實開發者工作流調校一個前沿模型，是直接搶攻 Claude 與 Codex 主導的程式碼層。在權重或 API 出現前，請把基準與時程都視為廠商自述。

Musk 表示 xAI 的 1.5 兆參數 Grok V9-Medium 已完成訓練（5/25），約為現行生產模型的 3 倍，並以 Cursor 開發資料訓練，預計六月中旬發布。

為什麼值得讀約 53 倍的 ARR 倍數，押的是「代理即人力」，而非「代理即工具」。飛輪既是證明也是風險：Cognition 用 Devin 寫自家約 90% 的程式，所以它的成長故事與產品演示是同一回事——直到成長放緩。

Devin 程式代理的開發商 Cognition 以 260 億美元估值募資逾 10 億（5/27）——8 個月翻 2.5 倍、$492M ARR、自家程式約 90% 由 AI 撰寫。

為什麼值得讀訊號是「價格-效能反轉」：預算級現在在每美元代理吞吐量上跑贏上一季旗艦。若你的基建是按 Pro 級定價規劃的，你的單位經濟學剛剛改善了，而且不用改一行程式。

I/O 2026：Flash 級 Gemini 3.5 Flash 在編碼+代理基準贏過 Gemini 3.1 Pro，$1.50/$9 每百萬 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半價。

為什麼值得讀值得盯緊的不是 benchmark 分數，而是「8 個 subagent 並行」這個結構選擇。若它站得住，成本模型從「每任務多少 token」轉成「每分鐘多少任務」 —— 跑 Claude Code 或 Codex 的團隊都得從 throughput 重做評估。

5/14 公開測試。SWE-Bench 70.8%、256K context、$0.20/$1.50 每百萬 tokens、$99 入門價。8 個子代理並行 git 分支 —— 競賽變四方。