在智能科技領域,具身智能正引發一場關于其本質定位的深度探討。自變量機器人創始人兼CEO王潛近日公開表示,具身智能模型是物理世界的基礎模型,與語言模型、多模態模型等虛擬世界模型處于獨立且平行的關系。這一觀點的提出,源于對物理世界與虛擬世界本質差異的重新審視。
語言模型和多模態模型所處理的是高度可復現、低隨機性的符號世界,而機器人所處的物理世界則充滿連續性、隨機性、不完全可觀測性,以及大量與力、接觸和時序強相關的過程。王潛指出,沿用基于語言和視覺的建模范式,在物理世界中存在結構性錯位。因此,自變量機器人在實踐中選擇了一條長期路線,不將具身智能視為應用層問題,而是從模型架構、數據范式、推理方式乃至硬件形態上,系統性地構建“物理世界的智能底座”。
在具身智能領域,一個核心爭論在于其究竟應被定位為應用還是獨立基礎模型。王潛明確認為,具身智能模型是專門面向物理世界的基礎模型。物理世界的特性與虛擬世界差異巨大,尤其是高度隨機性的現象難以被現有模型架構、訓練方法和數據能力充分準確刻畫。從長期視角看,具身智能基礎模型甚至可能反超現有多模態模型的市場空間。
構建統一的基礎模型需具備完全端到端的能力,這一觀點在行業內已逐漸形成共識。然而,在模型架構的具體設計上仍存在分歧。例如,快慢系統的采用被視為當前模型架構下的權衡方案。王潛認為,要根本解決問題,需將具身智能模型視為與現有模型完全不同的類型,在設計之初就充分考慮端側部署和推理需求。自變量機器人已在此方面取得突破,其模型在復雜任務上的推理速度不僅超過人類訓練時的數據收集速度,還能保持高準確率和效果。
機器人本體的泛化能力是另一關鍵挑戰。王潛指出,這一問題部分源于沿用傳統模型架構。自變量機器人通過跨本體泛化任務驗證了其模型的先進性:從夾爪模型遷移至高自由度靈巧手(15個主動自由度,共20個自由度)時,僅需少量樣本即可實現高效運行。這表明模型已掌握基礎物理規律、物體屬性和動作模式。該模型可能是當時唯一用端到端VLA模型驅動高自由度靈巧手的案例。
自變量機器人還期望具身模型具備多重能力:不僅生成動作控制機器人,還能作為世界模型預測未來狀態,同時具備空間智能以利用三維結構,并延續VLA的語言能力。王潛強調,VLA與世界模型并非替代關系,而是同一模型的不同輸出。將具身智能模型獨立分離為新范式,正是為了整合這些能力。自變量自研的WALL-OSS開源模型已具備VLA控制能力、泛化與智能跟隨能力,并能區分子任務構建長序列思維鏈。
在數據策略上,王潛提出具身智能需分階段處理數據:預訓練數據奠定基礎,后訓練數據優化性能,推理時通過思維鏈(CoT)等方式進一步拓展。這一策略源于對現實世界數據重要性的認識——盡管虛擬數據和合成數據有一定價值,但真實世界數據仍是核心。具身智能的持續學習特性要求端側實時更新數據,而非依賴集中式批次訓練,這對系統架構和硬件設計提出了新要求。
硬件與模型的協同發展是具身智能落地的關鍵。王潛強調,需讓AI定義硬件,而非先制造完美硬件再疊加AI模型。自變量機器人已推出兩款全自研輪式底盤人形機器人和高自由度靈巧手,并開始市場銷售。其軟硬一體同步發展的策略,為具身智能的實用化提供了新思路。
針對具身智能的發展影響,王潛認為其重要性常被低估。當前普遍觀點認為語言、數學等領域比具身智能更關鍵,但這一假設隱含前提是AGI能獨立突破資源限制。然而,真正聰明的AGI或超越人類的ASI需要更多算力、芯片、電力和數據,而這些均依賴物理世界。具身智能若實現突破,將推動萬事萬物遵循類似芯片摩爾定律的發展規律,從而釋放更多資源用于構建更智能的系統。這一過程可能重塑人類與機器的關系,開啟通用智能的新紀元。









