标签 · #coding-agents

OpenAI 收购 Ona（前身 Gitpod），为 Codex 智能体提供持久、安全的云端执行环境

为什么值得读智能体编程的竞争，重心已从模型质量转向执行环境。OpenAI 买下的是那些枯燥而困难的基础设施——持久性、沙箱、审计——它们才能把聪明的智能体变成可部署的智能体。

OpenAI 收购 Ona——前身为 Gitpod 的云端开发环境公司——让 Codex 智能体能在持久、由客户掌控、可审计的环境中执行更长时间的任务。

为什么值得读重点不是 1.5 万亿的参数量，而是训练语料。以 Cursor 真实开发者工作流调校一个前沿模型，是直接抢攻 Claude 与 Codex 主导的代码层。在权重或 API 出现前，请把基准与时间表都视为厂商自述。

Musk 表示 xAI 的 1.5 万亿参数 Grok V9-Medium 已完成训练（5/25），约为现行生产模型的 3 倍，并以 Cursor 开发数据训练，预计六月中旬发布。

为什么值得读约 53 倍的 ARR 倍数，押的是"代理即人力"，而非"代理即工具"。飞轮既是证明也是风险：Cognition 用 Devin 写自家约 90% 的代码，所以它的增长故事与产品演示是同一回事——直到增长放缓。

Devin 代码代理的开发商 Cognition 以 260 亿美元估值募资逾 10 亿（5/27）——8 个月翻 2.5 倍、$492M ARR、自家代码约 90% 由 AI 撰写。

为什么值得读信号是「价格-性能反转」：预算级现在在每美元代理吞吐量上跑赢上一季旗舰。若你的基建是按 Pro 级定价规划的，你的单位经济学刚刚改善了，而且不用改一行代码。

I/O 2026：Flash 级 Gemini 3.5 Flash 在编码+代理基准赢过 Gemini 3.1 Pro，$1.50/$9 每百万 token。Terminal-Bench 76.2% vs 70.3%。快 4 倍、半价。

为什么值得读值得盯紧的不是 benchmark 分数，而是「8 个 subagent 并行」这个结构选择。若它站得住，成本模型从「每任务多少 token」转成「每分钟多少任务」 —— 跑 Claude Code 或 Codex 的团队都得从 throughput 重做评估。

5/14 公开测试。SWE-Bench 70.8%、256K context、$0.20/$1.50 每百万 tokens、$99 入门价。8 个子代理并行 git 分支 —— 竞赛变四方。