Skip to content
AI-Daily-Builder

標籤 · #coding-agents

OpenAI 收購 Ona(前身 Gitpod),為 Codex 代理提供持久、安全的雲端執行環境

為什麼值得讀 代理式編程的競爭,重心已從模型品質轉向執行環境。OpenAI 買下的是那些枯燥而困難的基礎設施——持久性、沙箱、稽核——它們才能把聰明的代理變成可部署的代理。

OpenAI 收購 Ona——前身為 Gitpod 的雲端開發環境公司——讓 Codex 代理能在持久、由客戶掌控、可稽核的環境中執行更長時間的任務。

xAI 完成訓練 Grok V9-Medium:1.5 兆參數、以 Cursor 開發者資料調校的模型

為什麼值得讀 重點不是 1.5 兆的參數量,而是訓練語料。以 Cursor 真實開發者工作流調校一個前沿模型,是直接搶攻 Claude 與 Codex 主導的程式碼層。在權重或 API 出現前,請把基準與時程都視為廠商自述。

Musk 表示 xAI 的 1.5 兆參數 Grok V9-Medium 已完成訓練(5/25),約為現行生產模型的 3 倍,並以 Cursor 開發資料訓練,預計六月中旬發布。

Cognition 募資 10 億、估值 260 億——「代理即人力」的賭注,自家程式 90% 由 AI 撰寫

為什麼值得讀 約 53 倍的 ARR 倍數,押的是「代理即人力」,而非「代理即工具」。飛輪既是證明也是風險:Cognition 用 Devin 寫自家約 90% 的程式,所以它的成長故事與產品演示是同一回事——直到成長放緩。

Devin 程式代理的開發商 Cognition 以 260 億美元估值募資逾 10 億(5/27)——8 個月翻 2.5 倍、$492M ARR、自家程式約 90% 由 AI 撰寫。

Google Gemini 3.5 Flash 在代理任務上贏過上一季的 Pro 旗艦

為什麼值得讀 訊號是「價格-效能反轉」:預算級現在在每美元代理吞吐量上跑贏上一季旗艦。若你的基建是按 Pro 級定價規劃的,你的單位經濟學剛剛改善了,而且不用改一行程式。

I/O 2026:Flash 級 Gemini 3.5 Flash 在編碼+代理基準贏過 Gemini 3.1 Pro,$1.50/$9 每百萬 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半價。

xAI 推出 Grok Build CLI:8 個子代理並行、SWE-Bench 70.8%、$99 入門價

為什麼值得讀 值得盯緊的不是 benchmark 分數,而是「8 個 subagent 並行」這個結構選擇。若它站得住,成本模型從「每任務多少 token」轉成「每分鐘多少任務」 —— 跑 Claude Code 或 Codex 的團隊都得從 throughput 重做評估。

5/14 公開測試。SWE-Bench 70.8%、256K context、$0.20/$1.50 每百萬 tokens、$99 入門價。8 個子代理並行 git 分支 —— 競賽變四方。

請喝咖啡