2026-05-11 — views

Gemini CLI v0.41.2 推出即時語音模式、安全的 workspace-trust .env 載入、與 Gemma 4 支援

Gemini CLI v0.41.2 加入即時語音模式、headless 模式下的 workspace-trust .env 載入、更強的 shell 指令驗證、Gemma 4 支援。Google I/O 2026 主 keynote 5/19-20。

Google 於 2026 年 5 月 10–11 日推出 Gemini CLI v0.41.2，包含四個對「用它當 Claude Code 替代品」的開發者日常工作流有實質影響的變更。發布時間是刻意的 —— Google I/O 2026 將於 5/19–20 舉行，5/12 有 pre-keynote，公司正在 I/O 前整合其開發者工具故事，預期發表 Gemini 4。

v0.41.2 推出內容

即時語音模式。 gemini voice 子指令開啟使用 Google 串流 speech-to-speech 模型的持續性語音通道。早期 demo 端到端延遲約 280ms。對「雙手忙著」的工作很有用（除錯時結對、測試時口述）。目前僅美/英英語 + 日語；其他語系於 I/O 之後推出。

Headless 模式下的 workspace-trust .env 載入。 先前 headless 呼叫（CI、自動化、伺服器 job）無法安全讀取 .env 檔，因為信任提示需要 TTY。v0.41.2 引入 .gemini/trust.json 檔，宣告哪些目錄可信任，允許 CI 中讀取 .env 而不需互動提示。把以前「允許全部或弄壞自動化」二選一的安全模型收緊。

更強的 shell 指令驗證。 對來自 CLI 的 run_shell 呼叫加入預設禁止白名單。符合常見危險樣態的指令（rm -rf、curl | sh、chmod 777 /）即使在已信任工作區內也需明確使用者確認。降低針對 Gemini 的 prompt-injection 攻擊的爆炸半徑。

Gemma 4 26B-A4B 支援。 原生支援 Gemma 4 系列（在 5/8 的 llama.cpp 釋出中提及）。讓使用者可在離線或處理敏感隱私任務時路由到本地 Gemma 4 實例 — 與雲端 Gemini 呼叫相同 UX。

與 Claude Code 的比較

六個月前重要的功能差距 — Claude Code 有 skills/memory/MCP，Gemini CLI 沒有 — 已經彌合。Gemini CLI 現在出貨：

能力	Claude Code	Gemini CLI v0.41.2
持久 skills	✓	✓（v0.40 加入）
分層記憶	✓	✓（v0.40 加入）
MCP 伺服器	✓	✓（v0.39 加入）
語音模式	✗（僅 web app）	✓（CLI 原生）
本地模型路由	透過 LiteLLM	✓（內建）
Headless workspace trust	✓	✓（v0.41.2 加入）

語音模式是目前 Gemini CLI 在結構上領先 Claude Code 的唯一功能。本地模型路由若把 LiteLLM 算進 Claude Code 選項，則大致打平。

Google I/O 2026（5/19-20）有什麼預期

5/12 的 pre-keynote 可能包含開發者軌道的 Gemini CLI demo。5/19 的主 keynote 傳統上涵蓋 Gemini 模型更新 — Gemini 4 自 3 月起在 DeepMind 部落格文章中被暗示，預期上下文視窗大幅躍升（傳聞 5M-10M tokens）與重大推理能力提升。

實戰筆記

如果你因為 Gemini CLI 功能差距而堅持用 Claude Code，這次釋出把多數差距補上了。值得花 30 分鐘嘗試：在 Claude Code 旁裝 v0.41.2，把一個每日任務（例如你早上的 standup 摘要）分別路由到兩者並比較。語音模式是真正的差異化 — 若你做大量結對程式設計，280ms 延遲的語音通道會改變互動模型，是文字做不到的。

對所有在看 Google I/O 的人：5/19 的 Gemini 4 公告是本月最高影響力的 AI 事件。Gemini 4 推出的上下文視窗會重置所有人的長上下文計畫。如果你正在規劃需要 1M+ tokens 的專案，等一週再決定是否要押在 Anthropic 目前 Opus 4.7 的 1M-token 方案 — Gemini 4 可能讓另一家更便宜。