Skip to content
AI-Daily-Builder

2026-06-18 views

實體 AI vs 傳統 AI — 為什麼建造機器人比建造聊天機器人更難

Moravec 悖論、模擬到現實的落差,以及為什麼 LLM 的擴展定律無法直接套用於機器人與自駕車。

實體 AI 基準系列第 38 篇 — 根本難度差距

ChatGPT 在兩個月內達到一億用戶。Waymo 在耗費十五年與數十億美元之後,才在美國幾個城市展開商業運營。兩者都是 AI。為什麼差距如此巨大?

答案不在於資金、人才或企業意志力。而是問題本身的物理性質存在根本差異。實體 AI——自動駕駛車輛、人形機器人、送貨無人機——在現實世界中運行,錯誤有物理後果,訓練資料收集成本高昂,而模擬器在最關鍵的時刻恰恰失效。本文解釋為什麼建造機器人在結構上比建造聊天機器人更難,以及為什麼讓 GPT-4 成為可能的擴展定律無法直接套用於必須接觸世界的機器。


第 1 節 — 核心難度比較

下表從關鍵維度映射傳統 AI(大型語言模型、圖像生成器)與實體 AI(自動駕駛車輛、人形機器人)在結構上的差異。這些不是更快晶片能彌合的工程缺口——而是問題本質的差異。

維度傳統 AI(LLM)實體 AI(自駕車、機器人)
輸入域文字 / 詞元——離散、無損感測器資料——連續、有雜訊、有損
輸出域文字 / 詞元物理動作——不可逆、必須安全
錯誤後果錯誤答案(可更正)物理傷害(可能不可逆)
訓練資料網路文字(實際上無限)真實世界經驗(昂貴、收集緩慢)
模擬可行性高——文字模擬器效果良好低——物理模擬器在接觸與材料變形上失效
擴展定律行為強——更多資料 + 算力 → 可靠地更好弱——模擬到現實的落差限制了收益
泛化能力跨域強弱——在一個環境訓練的模型在另一個環境失效
邊緣案例尾部長但有界(語言有有限文法)實際上無限——每個物理環境都是獨特的
安全要求低——錯誤輸出令人惱火極高——錯誤輸出可能造成傷亡
部署速度數小時(軟體更新)數月至數年(驗證、監管審批)

最關鍵的行是錯誤後果。幻覺出錯誤日期的 LLM 可以更正。將行人誤分類的自動駕駛車輛則不能。這一個不對稱性驅動了所有下游的難度:驗證標準、監管負擔、安全裕度,以及從開發到部署的時間軸。


第 2 節 — Moravec 悖論

1988 年,機器人學家 Hans Moravec 提出了 AI 研究史上最重要的觀察之一:

「讓電腦在智力測驗或西洋跳棋上表現出成人水準相對容易,但讓它們具備一歲幼兒的感知與行動能力卻極度困難,甚至不可能。」

這種對人類直覺的顛覆——人類覺得難的事對 AI 容易,人類覺得簡單的事對 AI 困難——解釋了整個領域在此後四十年的軌跡。

對人類難、對 AI 容易:

對人類容易、2026 年對 AI 仍困難:

為什麼存在這種顛覆?人類「簡單」的物理技能是大約 5 億年生物演化的產物。它們不是以學習的規則編碼,而是編碼在硬體中:神經元的架構、肌肉和肌腱的機械特性、前庭系統、本體感覺(身體的持續自我模型),以及視覺皮層對三維場景理解的深度專業化。一個蹣跚學步的孩子走過房間,正在執行進化所產生的最複雜的即時控制系統之一。

建立在矩陣乘法上的 AI 系統必須從零開始學習演化在地質時間尺度上最佳化的東西。沒有捷徑。自 1988 年以來,實體 AI 的進步是真實且顯著的——但 Moravec 識別的差距並未縮小。它只是被更精確地理解了。


第 3 節 — 模擬到現實的落差

實體 AI 訓練中最重要的技術挑戰是模擬到現實的落差:在模擬中訓練的行為無法可靠地轉移到現實世界。

模擬能做好的事:

模擬對實體 AI 開發確實非常強大。現代物理模擬器能渲染逼真的相機圖像、模擬剛體動力學、在受控環境中以大規模訓練代理行走或駕駛,並廉價地執行數千個並行訓練實例。Tesla、Waymo、Boston Dynamics 以及每家認真的實體 AI 公司都大量使用模擬。沒有它,這個領域會落後十年。

模擬無法做到的事:

模擬的失效模式是具體且有重大影響的:

高精度接觸物理。 當機器人抓取物體時,接觸點的變形、摩擦和滑動取決於材料特性——橡膠對玻璃對濕陶瓷表面——模擬器對此近似得很差。模擬摩擦與真實摩擦之間的差距,在可靠抓取所需的精度水準上,三十年來一直是機器人操作的核心開放問題。已取得實質進展(OpenAI 的 Dactyl 工作、Google DeepMind 的 RT-2),但這個問題在一般意義上尚未解決。

長尾環境變異。 現實世界有實際上無限的變異,從未出現在模擬中:破碎的人行道、來自不尋常角度的意外陰影、非標準行人行為、遺留在車道中的兒童自行車、飄過感測器的落葉、被樹枝遮擋的路標、隔夜重新規劃交通的施工區。模擬器由已知現象的參數模型構建。現實世界不是參數化的。

感測器雜訊模型。 真實的相機和 LiDAR 雜訊模式複雜、依賴環境,並隨溫度、濕度和感測器老化而變化。模擬器使用簡化的近似。模擬感測器雜訊和真實感測器雜訊之間的差距足夠大,以至於訓練來處理模擬雜訊的模型在真實雜訊模式上經常失敗。

分布偏移。 在模擬中訓練的策略是在模擬器生成的狀態和轉換分布上訓練的。現實世界生成不同的分布。即使兩個分布平均看起來相似,尾部也不同——而實體 AI 在尾部失效。

實際案例:

Tesla 的 FSD 計劃在其模擬訓練分布中代表性不足的不尋常交叉口幾何形狀上遇到了模擬到現實的失效。Waymo 記錄了在施工區的挑戰,其中臨時車道配置和人工旗手行為偏離了其模擬器中的結構化場景。這兩者都不是針對這些公司的批評——它們是整個領域面臨的根本挑戰的說明。

模擬到現實的落差不是更好的工程能修復的特定模擬器中的錯誤。它是任何物理世界模型與物理世界本身之間關係的結構性屬性。模型永遠是簡化,簡化永遠在某處失效。


第 4 節 — 為什麼 LLM 擴展定律不能完全套用

現代 AI 最重要的實證發現是大型語言模型的「Chinchilla 擴展定律」,由 DeepMind 於 2022 年正式化:LLM 性能可預測地隨訓練資料量與算力的乘積擴展。更多詞元加上更多參數可靠地產生更好的語言模型。這種可預測的擴展使 GPT-3、GPT-4、Claude 和 Gemini 在其實現的時間軸上成為可能。

實體 AI 有一個更弱的版本,帶有四個具體限制:

1. 資料瓶頸。

你無法下載物理世界。自動駕駛車輛的每一英里真實世界訓練都需要花錢駕駛、需要人類安全駕駛員(在無人駕駛驗證之前)、消耗燃料,並累積配備感測器的測試車輛的磨損。每一個機器人小時的真實世界操作訓練都需要電力、一個物理機器人、要操作的物體,以及在每個情節之間重置環境的工程時間。物理訓練資料在物理和資本方面受到速率限制,而文字資料則不然。

2. 模擬資料上限。

更多模擬訓練資料有所幫助——直到達到模擬到現實的牆。當策略開始過擬合模擬器的特定物理近似時,邊際價值遞減。在某個閾值之後,額外的模擬算力產生的模型在模擬中導航更好,但在現實世界導航沒有實質改善。這個上限在網路文字的文字訓練中不存在,因為訓練分布和部署分布是相同的分布。

3. 安全驗證不隨算力擴展。

在事實問題上有 0.1% 錯誤率的 LLM 是有用且可部署的。在安全關鍵決策上有 0.1% 錯誤率的自動駕駛車輛是任何監管機構都不允許在公共道路上行駛的公共安全危機。實體 AI 的安全驗證負擔不會隨著算力增加而降低。它由失效後果設定,而不是由模型能力設定。

4. 物理環境的長尾真的很長。

語言有有限的詞彙和文法。物理環境的組合空間實際上是無限的:天氣條件、路面、交通密度、行人行為、一天中的時間、感測器退化狀態和不尋常障礙物的每種組合都代表一個可能不出現在任何訓練分布中的獨特場景。

尚未有人取得的突破: 給予機器人與語言模型從網路規模文字預訓練獲得的相同模擬到現實轉移優勢的通用「物理基礎模型」。幾個研究計劃(Google DeepMind 的 RT-2、各種世界模型方法)正朝這個方向努力。沒有一個在一般操作或駕駛中展示出能打破模擬到現實上限的轉移特性。


第 5 節 — 應對同一個難題的兩種方法:Tesla 對 Waymo

Tesla FSD 和 Waymo 都在攻克實體 AI 的難度,但它們對如何解決它做出了結構上不同的賭注。

方法Tesla FSDWaymo
訓練資料策略消費者規模的真實世界監督英里——數百萬輛 FSD 車輛高品質無人駕駛商業英里——更小的車隊,更受控的資料收集
模擬角色大量用於邊緣案例和影子模式大量使用加上專有感測器模擬套件
模型架構端到端神經網路——相機輸入直接到轉向/加速輸出模組化——感知、預測和規劃作為單獨組件
泛化賭注規模產生突現泛化,就像 LLM 一樣結構化推理加感測器融合產生可靠的安全裕度
安全理念在數百萬英里中統計展示的安全性規劃層中的形式驗證加保守安全裕度
核心賭注端到端加大規模對駕駛有效,就像對語言有效一樣模組化加形式方法在安全尾部超越黑盒方法

Tesla 的賭注本質上是將 LLM 假設應用於實體 AI:如果你從足夠大的車隊收集足夠多的真實世界資料,並在其上訓練端到端模型,突現泛化就會隨之而來。

Waymo 的賭注是駕駛的物理和安全約束對於黑盒神經網路來說太結構化,無法在尾部可靠處理。具有明確預測模型、形式安全裕度和可解釋規劃層的模組化架構允許人類工程師以端到端網路無法做到的方式推理和限制失效模式。

未解決的問題: 兩種方法都沒有展示完全無人駕駛在無限制城市環境中所需的每十億英里一次或每億英里一次的安全水準。Tesla FSD 在監管分類中仍然是需要駕駛員監督的二級駕駛輔助系統。Waymo 在特定天氣條件下的地理圍欄城市區域中商業無人駕駛。兩者都代表非凡的工程成就——以及在全條件完全自主所需的能力水準上的未解決問題。


第 6 節 — 關於本系列

這是實體 AI 基準系列的第 38 篇文章。本文提供了基礎技術框架:Moravec 悖論、模擬到現實的落差、LLM 擴展定律應用於實體 AI 的限制,以及 Tesla 端到端賭注與 Waymo 模組化方法之間的結構比較。

提示: 本文中的技術評估、能力時間軸和競爭比較反映截至 2026 年中期的公開資訊和行業分析。預測是估計,不是保證。本文中的任何內容都不構成投資建議。在做出任何投資決定之前,請進行自己的盡職調查並諮詢持牌財務顧問。


來源

標籤

請喝咖啡