Cloudflare Infire — 分离式推理架构比 vLLM 快 20%,Unweight 无损压缩缩小模型 22%
Cloudflare 以 Rust 开发的 Infire 推理引擎采用分离式 Prefill/Decode 架构,在 H100 满载下比 vLLM 0.10 高出 20% 吞吐量;伴随推出的 Unweight 可无损压缩模型权重 15–22%。
Cloudflare 以 Rust 开发的 Infire 推理引擎采用分离式 Prefill/Decode 架构,在 H100 满载下比 vLLM 0.10 高出 20% 吞吐量;伴随推出的 Unweight 可无损压缩模型权重 15–22%。
Jules(由 Gemini 3 Pro 驱动)全球公开测试版上线,提供 GitHub 标签触发 Action 及全新「Jules Tools」CLI,是首个真正挑战 Claude Code 的异步 GitHub 原生编程 Agent。
Agent 365 以每用户 $15 正式推出,每个 Agent 拥有独立 Entra 身份与 Defender MCP 威胁检测;Agent Framework 1.0 提供内置 A2A 与 MCP 互通的开源多 Agent 协作基础。
GR00T N1.7 开放视觉-语言-动作(VLA)基础模型进入商业早期访问;黄仁勋预告 GR00T N2 任务成功率将比现有领先 VLA 翻倍以上。
GitHub Copilot in VS 加入云端 agent session、profile 等级自訂 agent、从 .claude/skills/ 或 .agents/skills/ 載入 skills、可对 runtime 重现 issue 验证修復的 Debugger agent。
Cursor 推出 TypeScript SDK(@cursor/sdk),程序化取用桌面端、CLI、Web 共用的 runtime、harness、模型,採 token 計費。
Mistral Medium 3.5 是 128B 參数密集模型、256K context。Mistral 同时为 Vibe 加入云端 remote agent 與 Le Chat 的 Work Mode。
vLLM v0.20.0:752 commits、320 贡献者。默认 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 默认、TurboQuant 2-bit KV cache 4 倍容量。
Cursor 3.2 加入 /multitask 並行 async subagent、Agents Window 的 worktrees、跨多个文件夹/repo 的 multi-root workspace。
GPT-5.5 與 GPT-5.5 Pro 4/23 在 ChatGPT 與 Codex 上線,4/24 释出 API。OpenAI 列 Terminal-Bench 2.0 82.7%,並在 FrontierMath 超越 Opus 4.7。
Claude Design(研究预览)用自然语言產出原型、简报、一页式文件,並可读公司 codebase 或设计檔抽出设计系統並一致套用。
Anthropic 在 Claude 產品、API、Bedrock、Vertex、Microsoft Foundry 推出 Claude Opus 4.7,coding 與长 agentic 任务改善,视覺分辨率約 3.75 MP,价格不变。