上海人工智能實驗室Intern Robotics團隊近日宣布,其開發(fā)的統(tǒng)一視覺-語言-動作框架InternVLA-M1取得重大突破。這項發(fā)表于arXiv平臺的研究(編號:2510.13778v1)通過創(chuàng)新的空間引導(dǎo)訓(xùn)練策略,成功解決了機器人理解復(fù)雜指令并精準(zhǔn)執(zhí)行動作的難題。實驗數(shù)據(jù)顯示,該系統(tǒng)在多個基準(zhǔn)測試中超越現(xiàn)有方法,特別是在真實世界雜亂環(huán)境中的表現(xiàn)提升超過20%,為通用機器人研發(fā)開辟了新路徑。
傳統(tǒng)機器人系統(tǒng)在執(zhí)行"將桌上紅色蘋果放入籃子"這類任務(wù)時面臨雙重挑戰(zhàn):既要理解人類語言的模糊性,又需在三維空間中精準(zhǔn)定位物體。研究團隊提出的解決方案借鑒人類認(rèn)知模式,構(gòu)建了包含41億參數(shù)的雙系統(tǒng)架構(gòu)。該系統(tǒng)由VLM規(guī)劃器和動作專家組成,前者負(fù)責(zé)分析任務(wù)要求、識別物體位置并制定行動計劃,后者則將高層規(guī)劃轉(zhuǎn)化為精確的機械臂控制信號。這種分工模式使系統(tǒng)在單張RTX 4090顯卡上即可實現(xiàn)每秒10幀的推理速度,內(nèi)存占用控制在12GB以內(nèi)。
訓(xùn)練策略的創(chuàng)新是該研究的核心突破。團隊采用分階段訓(xùn)練法:首先通過230萬個空間推理樣本構(gòu)建基礎(chǔ)能力,涵蓋物體檢測、點定位、軌跡預(yù)測等核心任務(wù);隨后在仿真環(huán)境中生成24.4萬個可泛化場景,訓(xùn)練系統(tǒng)將空間理解轉(zhuǎn)化為具體動作。這種"先理解空間再執(zhí)行動作"的策略,使系統(tǒng)在SimplerEnv測試中成功率提升14.6%,在真實世界雜亂場景中的表現(xiàn)提升達20.6%。特別是在長時程任務(wù)中,系統(tǒng)展現(xiàn)出強大的規(guī)劃能力,能動態(tài)調(diào)整策略應(yīng)對物理干擾和任務(wù)變更。
為支撐大規(guī)模訓(xùn)練需求,研究團隊構(gòu)建了高度逼真的仿真平臺。該平臺整合14716個物體模型、200余張桌子、80種光照條件和1676種紋理,通過分離物理計算與渲染過程,實現(xiàn)高效數(shù)據(jù)生成。每個訓(xùn)練樣本都經(jīng)過雙重驗證:物理引擎確保動作可行性,場景圖驗證器檢查任務(wù)完成度。這種嚴(yán)格的質(zhì)量控制機制,使系統(tǒng)在未見物體和新配置場景中仍能保持穩(wěn)定性能,顯著提升了仿真到現(xiàn)實的遷移能力。
在評估環(huán)節(jié),InternVLA-M1展現(xiàn)了全方位優(yōu)勢。在LIBERO基準(zhǔn)測試中,系統(tǒng)在空間推理和長時程任務(wù)子集上分別達到98.2%和97.5%的成功率,超越最強基線方法1.6個百分點。真實世界測試中,配備Robotiq夾爪的Franka機械臂在23個已見物體和5個已見容器的分類任務(wù)中,通過協(xié)同訓(xùn)練將未見物體操作成功率提升至20.6%。特別在抽屜操作任務(wù)中,系統(tǒng)能實時感知人為干預(yù)并調(diào)整動作序列,展現(xiàn)出強大的環(huán)境適應(yīng)能力。
技術(shù)細(xì)節(jié)方面,研究團隊設(shè)計了輕量級查詢變換器連接雙系統(tǒng),通過梯度衰減因子平衡多模態(tài)知識學(xué)習(xí)。空間提示策略的引入,使系統(tǒng)在執(zhí)行任務(wù)時自動激活預(yù)訓(xùn)練的空間感知能力。雙重監(jiān)督機制則確保VLM規(guī)劃器與動作專家協(xié)同優(yōu)化,在保持語義推理能力的同時實現(xiàn)高效端到端訓(xùn)練。這些創(chuàng)新使系統(tǒng)在處理絕對/相對位置指令時表現(xiàn)出色,有效解決了數(shù)據(jù)驅(qū)動模型泛化不足的問題。
該研究的公開資源為后續(xù)研究奠定基礎(chǔ)。團隊不僅發(fā)布了完整代碼和模型參數(shù),還開源了包含300萬個多模態(tài)樣本的訓(xùn)練數(shù)據(jù)集。詳細(xì)的評估基準(zhǔn)覆蓋從簡單抓取到復(fù)雜推理的200余個任務(wù),為機器人學(xué)習(xí)領(lǐng)域提供了標(biāo)準(zhǔn)化測試平臺。隨著技術(shù)持續(xù)完善,這種空間引導(dǎo)訓(xùn)練范式有望推動通用機器人進入更多實際應(yīng)用場景,實現(xiàn)更自然的人機協(xié)作。










