讓雙足人形機器人像人類一樣完成移動操作任務,是具身智能領域長期追求的目標。近日,一項突破性研究為這一愿景提供了關鍵技術支撐——由多所高校及科研機構組成的聯合團隊,成功開發出名為WholeBodyVLA的全身視覺-語言-動作控制框架,首次將VLA范式擴展至人形機器人全身控制領域。
傳統機器人控制面臨的核心挑戰在于,移動與操作兩大功能往往難以協同。當機器人需要邊行走邊完成抓取、搬運等動作時,不僅要保持平衡,還需精準控制肢體動作。研究團隊通過創新設計,將原本分離的移動控制與操作控制整合為統一框架,使機器人能夠同時處理行走姿態調整與末端執行器操作兩大任務。這一突破解決了雙足機器人執行復雜任務時的關鍵技術瓶頸。
該框架的核心創新在于數據利用方式的革新。研究團隊摒棄了傳統依賴昂貴機器人遙操作數據的模式,轉而從人類第一視角視頻中提取動作模式。通過分析人類完成類似任務時的視覺觀察、語言指令與肢體動作的對應關系,系統構建出移動操作的潛在動作表示模型。這種數據獲取方式不僅降低了研發成本,更使模型具備更強的場景適應能力。
為提升控制穩定性,研究團隊開發了專用強化學習控制器。該控制器通過簡化控制目標,將復雜的全身動作分解為可優化的子任務模塊。實驗數據顯示,搭載該框架的機器人能在不同起始位置自主規劃路徑,在完成目標操作的同時保持身體平衡。即使在存在障礙物的地形中,機器人仍能維持基本移動方向,展現出較強的環境適應能力。
技術驗證環節設置了多項挑戰性測試。在模擬真實場景的實驗中,機器人成功完成了從貨架取物、跨障礙運輸到指定位置放置的全流程任務。更值得關注的是,系統對未見過的新物體和場景表現出初步泛化能力,這得益于其基于人類行為模式的學習機制。研究團隊指出,這種類人學習方式使機器人具備更接近人類的操作靈活性。
目前該技術已實現基礎功能驗證,下一步研究將聚焦于提升操作精度與響應速度。團隊計劃通過優化動作表示模型,使機器人能夠理解更復雜的語言指令,并完成精細操作任務。這項研究為雙足機器人走向實用化邁出了重要一步,其技術路徑或將成為未來人形機器人開發的重要參考。











