Skip to content
AI-Daily-Builder

2026-05-11 views

Gemini CLI v0.41.2 推出即時語音模式、安全的 workspace-trust .env 載入、與 Gemma 4 支援

Gemini CLI v0.41.2 加入即時語音模式、headless 模式下的 workspace-trust .env 載入、更強的 shell 指令驗證、Gemma 4 支援。Google I/O 2026 主 keynote 5/19-20。

Google 於 2026 年 5 月 10–11 日推出 Gemini CLI v0.41.2,包含四個對「用它當 Claude Code 替代品」的開發者日常工作流有實質影響的變更。發布時間是刻意的 —— Google I/O 2026 將於 5/19–20 舉行,5/12 有 pre-keynote,公司正在 I/O 前整合其開發者工具故事,預期發表 Gemini 4。

v0.41.2 推出內容

即時語音模式。 gemini voice 子指令開啟使用 Google 串流 speech-to-speech 模型的持續性語音通道。早期 demo 端到端延遲約 280ms。對「雙手忙著」的工作很有用(除錯時結對、測試時口述)。目前僅美/英英語 + 日語;其他語系於 I/O 之後推出。

Headless 模式下的 workspace-trust .env 載入。 先前 headless 呼叫(CI、自動化、伺服器 job)無法安全讀取 .env 檔,因為信任提示需要 TTY。v0.41.2 引入 .gemini/trust.json 檔,宣告哪些目錄可信任,允許 CI 中讀取 .env 而不需互動提示。把以前「允許全部或弄壞自動化」二選一的安全模型收緊。

更強的 shell 指令驗證。 對來自 CLI 的 run_shell 呼叫加入預設禁止白名單。符合常見危險樣態的指令(rm -rfcurl | shchmod 777 /)即使在已信任工作區內也需明確使用者確認。降低針對 Gemini 的 prompt-injection 攻擊的爆炸半徑。

Gemma 4 26B-A4B 支援。 原生支援 Gemma 4 系列(在 5/8 的 llama.cpp 釋出中提及)。讓使用者可在離線或處理敏感隱私任務時路由到本地 Gemma 4 實例 — 與雲端 Gemini 呼叫相同 UX。

與 Claude Code 的比較

六個月前重要的功能差距 — Claude Code 有 skills/memory/MCP,Gemini CLI 沒有 — 已經彌合。Gemini CLI 現在出貨:

能力Claude CodeGemini CLI v0.41.2
持久 skills✓(v0.40 加入)
分層記憶✓(v0.40 加入)
MCP 伺服器✓(v0.39 加入)
語音模式✗(僅 web app)✓(CLI 原生)
本地模型路由透過 LiteLLM✓(內建)
Headless workspace trust✓(v0.41.2 加入)

語音模式是目前 Gemini CLI 在結構上領先 Claude Code 的唯一功能。本地模型路由若把 LiteLLM 算進 Claude Code 選項,則大致打平。

Google I/O 2026(5/19-20)有什麼預期

5/12 的 pre-keynote 可能包含開發者軌道的 Gemini CLI demo。5/19 的主 keynote 傳統上涵蓋 Gemini 模型更新 — Gemini 4 自 3 月起在 DeepMind 部落格文章中被暗示,預期上下文視窗大幅躍升(傳聞 5M-10M tokens)與重大推理能力提升。

實戰筆記

如果你因為 Gemini CLI 功能差距而堅持用 Claude Code,這次釋出把多數差距補上了。值得花 30 分鐘嘗試:在 Claude Code 旁裝 v0.41.2,把一個每日任務(例如你早上的 standup 摘要)分別路由到兩者並比較。語音模式是真正的差異化 — 若你做大量結對程式設計,280ms 延遲的語音通道會改變互動模型,是文字做不到的。

對所有在看 Google I/O 的人:5/19 的 Gemini 4 公告是本月最高影響力的 AI 事件。Gemini 4 推出的上下文視窗會重置所有人的長上下文計畫。如果你正在規劃需要 1M+ tokens 的專案,等一週再決定是否要押在 Anthropic 目前 Opus 4.7 的 1M-token 方案 — Gemini 4 可能讓另一家更便宜。


来源

标签

请喝咖啡