Skip to content
AI-Daily-Builder

标签 · #coding-agents

OpenAI 收购 Ona(前身 Gitpod),为 Codex 智能体提供持久、安全的云端执行环境

为什么值得读 智能体编程的竞争,重心已从模型质量转向执行环境。OpenAI 买下的是那些枯燥而困难的基础设施——持久性、沙箱、审计——它们才能把聪明的智能体变成可部署的智能体。

OpenAI 收购 Ona——前身为 Gitpod 的云端开发环境公司——让 Codex 智能体能在持久、由客户掌控、可审计的环境中执行更长时间的任务。

xAI 完成训练 Grok V9-Medium:1.5 万亿参数、以 Cursor 开发者数据调校的模型

为什么值得读 重点不是 1.5 万亿的参数量,而是训练语料。以 Cursor 真实开发者工作流调校一个前沿模型,是直接抢攻 Claude 与 Codex 主导的代码层。在权重或 API 出现前,请把基准与时间表都视为厂商自述。

Musk 表示 xAI 的 1.5 万亿参数 Grok V9-Medium 已完成训练(5/25),约为现行生产模型的 3 倍,并以 Cursor 开发数据训练,预计六月中旬发布。

Cognition 募资 10 亿、估值 260 亿——"代理即人力"的赌注,自家代码 90% 由 AI 撰写

为什么值得读 约 53 倍的 ARR 倍数,押的是"代理即人力",而非"代理即工具"。飞轮既是证明也是风险:Cognition 用 Devin 写自家约 90% 的代码,所以它的增长故事与产品演示是同一回事——直到增长放缓。

Devin 代码代理的开发商 Cognition 以 260 亿美元估值募资逾 10 亿(5/27)——8 个月翻 2.5 倍、$492M ARR、自家代码约 90% 由 AI 撰写。

Google Gemini 3.5 Flash 在代理任务上赢过上一季的 Pro 旗舰

为什么值得读 信号是「价格-性能反转」:预算级现在在每美元代理吞吐量上跑赢上一季旗舰。若你的基建是按 Pro 级定价规划的,你的单位经济学刚刚改善了,而且不用改一行代码。

I/O 2026:Flash 级 Gemini 3.5 Flash 在编码+代理基准赢过 Gemini 3.1 Pro,$1.50/$9 每百万 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半价。

xAI 推出 Grok Build CLI:8 个子代理并行、SWE-Bench 70.8%、$99 入门价

为什么值得读 值得盯紧的不是 benchmark 分数,而是「8 个 subagent 并行」这个结构选择。若它站得住,成本模型从「每任务多少 token」转成「每分钟多少任务」 —— 跑 Claude Code 或 Codex 的团队都得从 throughput 重做评估。

5/14 公开测试。SWE-Bench 70.8%、256K context、$0.20/$1.50 每百万 tokens、$99 入门价。8 个子代理并行 git 分支 —— 竞赛变四方。

请喝咖啡