Cloudflare Infire — 分離式推論架構比 vLLM 快 20%,Unweight 無損壓縮縮小模型 22%
Cloudflare 以 Rust 開發的 Infire 推論引擎採用分離式 Prefill/Decode 架構,在 H100 滿載下比 vLLM 0.10 高出 20% 吞吐量;伴隨推出的 Unweight 系統可無損壓縮模型權重 15–22%。
Cloudflare 以 Rust 開發的 Infire 推論引擎採用分離式 Prefill/Decode 架構,在 H100 滿載下比 vLLM 0.10 高出 20% 吞吐量;伴隨推出的 Unweight 系統可無損壓縮模型權重 15–22%。
Jules(由 Gemini 3 Pro 驅動)全球公開測試版上線,提供 GitHub 標籤觸發 Action 及全新「Jules Tools」CLI,是首個正式挑戰 Claude Code 的非同步 GitHub 原生程式 Agent。
Agent 365 以每位使用者 $15 美元正式推出,每個 Agent 擁有獨立 Entra 身份、Purview 標籤與 Defender MCP 威脅偵測;Agent Framework 1.0 提供內建 A2A 與 MCP 互通的開源多 Agent 協作基礎。
GR00T N1.7 開放視覺-語言-動作(VLA)基礎模型進入商業早期訪問;黃仁勳預告 GR00T N2 任務成功率將比現有領先 VLA 翻倍以上。
GitHub Copilot in VS 加入雲端 agent session、profile 等級自訂 agent、從 .claude/skills/ 或 .agents/skills/ 載入 skills、可對 runtime 重現 issue 驗證修復的 Debugger agent。
Cursor 推出 TypeScript SDK(@cursor/sdk),程式化取用桌機、CLI、Web 共用的 runtime、harness、模型,採 token 計費。
Mistral Medium 3.5 是 128B 參數密集模型、256K context。Mistral 同時為 Vibe 加入雲端 remote agent 與 Le Chat 的 Work Mode。
vLLM v0.20.0:752 commits、320 貢獻者。預設 CUDA 13.0、PyTorch 2.11、Transformers v5、Python 3.14、FlashAttention 4 預設、TurboQuant 2-bit KV cache 4 倍容量。
Cursor 3.2 加入 /multitask 並行 async subagent、Agents Window 的 worktrees、跨多個資料夾/repo 的 multi-root workspace。
GPT-5.5 與 GPT-5.5 Pro 4/23 在 ChatGPT 與 Codex 上線,4/24 釋出 API。OpenAI 列 Terminal-Bench 2.0 82.7%,並在 FrontierMath 超越 Opus 4.7。
Claude Design(研究預覽)用自然語言產出原型、簡報、一頁式文件,並可讀公司 codebase 或設計檔抽出設計系統並一致套用。
Anthropic 在 Claude 產品、API、Bedrock、Vertex、Microsoft Foundry 推出 Claude Opus 4.7,coding 與長 agentic 任務改善,視覺解析度約 3.75 MP,價格不變。