當Physical Intelligence在2024年底發布機器人基礎模型π0時,其團隊曾將這款產品類比為“機器人領域的GPT-1”。這一表述背后蘊含著對技術演進路徑的期待——如同OpenAI通過語言模型開啟自然語言處理新紀元,機器人智能或許也能通過擴大模型規模與數據量實現質的飛躍。然而彼時,機器人領域的“擴展定律”(Scaling Law)尚未得到系統性驗證,更多停留在理論設想階段。
2025年11月4日,由前Google DeepMind高級研究員Pete Florence創立的Generalist AI公司,通過發布GEN-0模型為這一領域提供了關鍵性突破。該研究不僅證實了機器人基礎模型存在可量化的擴展關系,更首次在物理智能訓練中觀測到語言模型領域特有的“模型僵化”(ossification)現象。這一發現表明,機器人智能的發展遵循著比預期更復雜的規律,但其核心仍可通過數據與算力的規模效應進行預測。
在計算機視覺與自然語言處理領域,擴展定律已被廣泛接受,但機器人領域始終缺乏實證支持。主要障礙在于高質量數據的稀缺性與模型規模的局限性。盡管MIT與慕尼黑工業大學在2024年通過元分析發現機器人模型存在擴展趨勢,但相關研究仍基于較小規模的參數(億級)與數據集(萬小時級)。當研究團隊將模型參數擴展至70億、訓練數據推向27萬小時的真實操作軌跡時,意外發現了物理智能的“相變點”。
實驗數據顯示,10億參數的模型在訓練過程中迅速出現僵化現象,表現為模型權重無法吸收新信息,訓練損失停止下降。這種現象此前僅在百萬級參數的語言模型中觀察到,且規模遠小于當前實驗。而當模型參數達到60億時,僵化現象消失,模型展現出強大的多任務學習能力。70億參數以上的模型不僅能內化大規模預訓練數據,更可通過少量后訓練(幾千步)快速適應新任務。目前,GEN-0已擴展至100億參數規模,其適應新任務的速度與后訓練需求呈反比增長。
這一發現與人工智能領域的“莫拉維克悖論”(Moravec's Paradox)形成呼應。該悖論由機器人學家Hans Moravec在1988年提出,指出人類認為簡單的感知與靈巧操作(如抓取物體),對機器而言需要極高的計算復雜度;而人類認為困難的抽象推理(如數學計算),機器反而能更高效完成。GEN-0的實驗為悖論提供了定量證據:物理世界的常識(physical commonsense)存在更高的“激活閾值”,需要更大規模的計算資源才能涌現。
從工程實踐角度看,這種可預測的擴展關系具有重大價值。研究團隊通過冪律公式建立了模型規模、預訓練數據量與下游任務性能的量化關系。以服裝處理任務為例,他們可精確估算需要多少預訓練數據才能將動作預測誤差降至特定閾值。這種預測能力使資源分配從“賭博式探索”轉變為“預期性投資”,顯著提升了研發效率。
在訓練機制層面,GEN-0引入了名為“諧波推理”(Harmonic Reasoning)的創新框架。傳統機器人系統常采用“快速反應系統(System 1)”與“慢速規劃系統(System 2)”的分離架構,前者處理即時響應,后者負責長期決策。但這種設計導致接口復雜、靈活性受限。諧波推理則將感知、思考與行動視為連續時間軸上的異步token流,通過訓練模型協調三者間的相互作用。
具體而言,模型在處理視覺輸入時,可同時生成“內部推理”token(不直接轉化為動作,但影響后續決策)與“動作控制”token(直接操控機器人關節)。這種設計使模型能在執行當前動作的同時規劃未來步驟。在組裝相機套件的演示中,機器人需完成將清潔布放入盒子、折疊紙板托盤、取出相機、合上盒蓋并插入固定卡扣等系列精細操作,全程無需顯式子任務分解,而是通過統一推理流完成。
數據規模與質量是GEN-0的另一大突破。該模型在27萬小時的真實世界操作軌跡上進行預訓練,數據收集自全球數千個家庭、倉庫與工作場所,規模比公開的最大機器人數據集大幾個數量級。為實現這一目標,Generalist AI部署了數千個數據收集設備與機器人,通過專用網絡線路支持高帶寬數據上傳,并動用數萬個核心進行多模態數據處理,每日可消化相當于6.85年的真實操作經驗。
數據多樣性同樣經過精心設計。研究團隊將數據分為三類:針對特定任務的演示數據(Class 1)、開放式操作數據(Class 3)與介于兩者之間的中間數據(Class 2)。消融實驗顯示,不同數據混合會導致模型特性差異。例如,某些數據配置訓練的模型在預測誤差與反向KL散度上表現優異,更適合監督微調;另一些配置雖預測誤差較高,但輸出分布多模態性更強,對強化學習后訓練更有利。這些發現為數據收集策略提供了直接指導。
Generalist AI的創始團隊由三位資深研究員組成:Pete Florence在麻省理工學院期間專注于視覺引導操作,提出Dense Object Nets等開創性工作;加入Google后,他參與RT-2、PaLM-E等項目,探索大模型與機器人的融合。Andy Zeng從機器人抓取研究起步,其代表作TossingBot曾獲RSS 2019最佳系統論文獎提名,在Google期間與Pete合作發表超17篇論文。Andrew Barry則帶來硬件與系統集成經驗,曾在MIT研究高速自主無人機導航,后參與波士頓動力Spot機器狗的機械臂項目研發。
三人認為,創造通用機器人的關鍵在于重新聚焦數據、模型與硬件的交匯點。他們指出,僅依賴互聯網數據無法構建能與物理世界交互的智能層,必須通過真實操作數據訓練模型。這一共識促使他們成立Generalist AI,目標直指“讓通用機器人成為現實”。
盡管GEN-0展示了機器人智能的擴展潛力,但研究仍存在未解之謎。目前,模型架構細節、訓練算法與代碼尚未公開,諧波推理的具體實現方式也未披露。數據收集方法、質量控制流程與標注策略等關鍵信息同樣缺失。雖展示了部分演示視頻,但缺乏系統成功率統計與對比數據,難以全面評估模型性能。盡管如此,GEN-0已證明通過擴大模型規模與高質量物理數據,機器人智能可遵循獨特但類似語言模型的發展軌跡,為通用機器人的實現奠定了基礎。










