在具身智能領域,讓雙足人形機器人像人類一樣完成裝箱、搬運、推車等移動操作任務,始終是科研人員努力的方向。近期,由香港大學、智元AGIBOT、復旦大學以及上海創智學院組成的聯合研究團隊,取得了一項重要成果——提出WholeBodyVLA框架,為雙足人形機器人的自主全身控制開辟了新路徑。
該研究基于智元靈犀X2展開,將視覺語言動作模型(VLA)拓展至雙足人形機器人的全身控制范疇,并成功驗證了其在全身移動操作任務中的可行性。與原地操作不同,移動操作面臨更為復雜的挑戰。其難點并非掌握單一技能,而是要求行走與操作在同一任務中長時間、穩定地協同進行。
圍繞這一難題,WholeBodyVLA框架總結出制約移動操作發展的兩大核心問題:真機數據稀缺以及運動執行過程中的不穩定性。在人形機器人執行移動操作任務時,數據采集的難度和成本遠高于原地操作。通常需要多名數采員同時協作,通過遙操讓機器人上半身進行操作、下半身完成行走。這一過程往往借助混合方案實現,比如用VR控制上半身、遙控器控制下半身,但這種方式操作流程繁瑣、效率低下;若采用全身動捕系統,又會面臨高昂的價格。
同時,移動操作對運動精準性和穩定性的要求極高。與單純的操作相比,任何細微的偏差都可能使目標操作物體脫離相機視野和工作空間。即便VLA輸出了正確的運動指令,下半身控制器仍可能出現執行失誤,例如走歪、踉蹌等情況。
為攻克這些難題,研究團隊在WholeBodyVLA框架中引入了兩項關鍵創新。一方面,從人類視頻中學習移動與操作的潛在動作。該框架通過第一視角的人類視頻學習相關動作,其中操作相關的潛在動作基于AgiBot World數據集進行建模。另一方面,設計了面向移動操作的強化學習(RL)控制器。將通用連續運動控制目標簡化為一組離散運動指令,僅保留移動操作必要的強化學習訓練目標,從而大幅提升控制器在運動執行時的穩定性。
研究團隊在智元靈犀X2人形機器人上開展了大量真機實驗。實驗結果表明,WholeBodyVLA框架使機器人具備了大范圍、長程移動操作任務的能力,在距離、操作和地形等方面都展現出良好的泛化性。












