在通用機器人研發領域,視覺-語言-行動(VLA)模型被視為突破技術瓶頸的關鍵方向。然而現有主流方案如OpenVLA、RT-2等普遍存在空間感知缺陷,這些依賴二維RGB圖像的模型在三維場景中常出現定位偏差,尤其在處理非結構化環境時,對物體深度和空間關系的判斷能力顯著不足。
針對這一行業痛點,原力靈機團隊近日提出創新性的GeoVLA框架,通過構建雙流協同機制實現三維幾何感知能力的突破。該架構在保留視覺語言模型(VLM)預訓練優勢的基礎上,創新性地引入點云嵌入網絡(PEN)與空間感知動作專家(3DAE)兩大核心模塊,形成語義理解與空間感知的并行處理路徑。這種解耦式設計使機器人既能"理解場景語義"又能"精準定位物體",有效解決了傳統模型的空間失明問題。
技術實現層面,GeoVLA采用三流協同架構:語義理解流負責解析視覺語言信息,幾何感知流通過點云數據構建三維空間模型,動作生成流則整合前兩者輸出進行決策。這種模塊化設計不僅提升了系統可解釋性,更通過端到端訓練實現了各組件的動態優化。實驗數據顯示,在仿真環境中該框架的物體定位誤差較傳統方案降低62%,動作規劃效率提升45%。
基準測試驗證了技術突破的實質性進展。在LIBERO標準測試集上,GeoVLA以97.7%的任務成功率刷新紀錄,較此前最優模型提升8.3個百分點。面對ManiSkill2物理仿真平臺設置的復雜場景——包含動態障礙物、多視角干擾和形變物體等挑戰,該系統仍保持89.4%的綜合成功率。特別在處理透明材質、反光表面等傳統難題時,其三維重建精度達到毫米級,展現出顯著的技術優勢。
真實場景測試進一步證實了系統的魯棒性。在光照劇烈變化(100-10000lux動態范圍)、機械臂負載波動(±30%額定載荷)等極端條件下,GeoVLA的決策穩定性較同類產品提升2.7倍。研究團隊特別強調,這種跨場景適應能力源于點云網絡的幾何先驗知識與語言模型的語義泛化能力的有機融合,使得系統既能處理已知場景,也能應對未見過的環境配置。
項目技術文檔顯示,GeoVLA已開源核心代碼與訓練框架,開發者可通過指定網址獲取完整實現方案。該成果不僅為機器人操作任務提供了新的技術路徑,其模塊化設計更可擴展至自動駕駛、增強現實等領域,有望推動三維空間智能技術的規模化應用。










