在具身智能技術(shù)加速突破的當(dāng)下,行業(yè)長期面臨的生態(tài)碎片化問題正成為制約發(fā)展的關(guān)鍵瓶頸。作為機器人感知-決策-執(zhí)行的核心技術(shù)路徑,視覺-語言-動作(VLA)模型的研究因開發(fā)工具鏈割裂而陷入困境。不同研究機構(gòu)采用差異化深度學(xué)習(xí)框架、模型架構(gòu)和訓(xùn)練流程,導(dǎo)致算法復(fù)現(xiàn)困難、工程協(xié)作低效,研究者常需耗費大量時間配置多套實驗環(huán)境,模型性能的公平性與可重復(fù)性遭受質(zhì)疑。
更具挑戰(zhàn)性的是,當(dāng)前主流VLA策略仍依賴過時的模型架構(gòu)。以O(shè)penVLA及其衍生模型CogACT、OFT為例,其底層均基于Llama2架構(gòu),未能充分利用Qwen3等新一代模型更強的表征能力。這種技術(shù)代差導(dǎo)致行業(yè)看似創(chuàng)新不斷,實則仍在舊技術(shù)框架內(nèi)循環(huán),學(xué)術(shù)研究與工程落地的重復(fù)建設(shè)成為具身智能規(guī)模化發(fā)展的隱形障礙。
針對上述痛點,Dexmal原力靈機團隊推出開源VLA工具箱Dexbotic,構(gòu)建了基于PyTorch框架的標(biāo)準(zhǔn)化科研基礎(chǔ)設(shè)施。該工具箱通過"統(tǒng)一架構(gòu)+高性能預(yù)訓(xùn)練模型+實驗?zāi)_本化"的創(chuàng)新設(shè)計,實現(xiàn)了多策略復(fù)現(xiàn)、跨機器人數(shù)據(jù)整合與開發(fā)流程自動化三大突破。開發(fā)者僅需一次環(huán)境配置,即可在統(tǒng)一代碼庫中復(fù)現(xiàn)π0、OFT、CogACT等主流算法,模型性能比較與算法迭代效率顯著提升。
在數(shù)據(jù)標(biāo)準(zhǔn)化層面,Dexbotic開發(fā)的Dexdata格式為UR5、Franka等主流機器人建立了統(tǒng)一數(shù)據(jù)規(guī)范。該格式將視頻與文本信息分別存儲于.mp4文件與JSONL目錄,通過index_cache.json元數(shù)據(jù)文件實現(xiàn)高效數(shù)據(jù)訪問。相比傳統(tǒng)格式,Dexdata在數(shù)據(jù)加載與訓(xùn)練階段可節(jié)省最高40%的存儲空間,其可擴展架構(gòu)已支持8種單臂機器人與3種雙臂機器人的數(shù)據(jù)復(fù)用,未來將持續(xù)擴展適配范圍。
預(yù)訓(xùn)練模型方面,Dexbotic提供離散型與連續(xù)型雙版本基座模型。Dexbotic-Base采用CLIP視覺編碼器與Qwen2.5語言模型架構(gòu),融合Open-X Embodiment、RLBench等多源仿真數(shù)據(jù)與真實機械臂數(shù)據(jù),支持π0、MemoryVLA等離散動作策略的微調(diào)開發(fā)。針對連續(xù)動作場景的Dexbotic-CogACT則提供單臂/雙臂版本,雙臂模型整合了8種真實機器人的52個任務(wù)數(shù)據(jù)與ALOHA雙臂數(shù)據(jù)集,支持多視角輸入與復(fù)雜操作任務(wù)。
實證測試顯示,Dexbotic在多個主流仿真基準(zhǔn)中表現(xiàn)優(yōu)異。在SimplerEnv的"堆疊方塊"等任務(wù)中,CogACT策略性能提升18.2%,DB-OFT版本提升達46.2%;CALVIN長時序任務(wù)里,DB-CogACT平均任務(wù)長度較原版增加0.81;ManiSkill2抓取任務(wù)中,DB-OFT成功率提升42%。真實機器人實驗中,UR5e等平臺完成餐盤擺放、按鈕按壓等任務(wù)的成功率達80%-100%,但在紙張撕碎等精細操作中仍存在改進空間。
硬件生態(tài)建設(shè)方面,團隊同步推出開源機器人平臺DOS-W1。該平臺采用全開源設(shè)計方案,公開文檔、BOM清單與設(shè)計圖紙,通過快拆結(jié)構(gòu)與模塊化設(shè)計降低使用與維護成本。其人體工學(xué)設(shè)計提升操作舒適度,支持高效數(shù)據(jù)采集,未來將通過產(chǎn)業(yè)鏈共創(chuàng)擴展功能模塊,構(gòu)建開放硬件生態(tài)。
為推動技術(shù)落地,Dexbotic與RoboChallenge平臺達成合作,提供基于主流機器人的遠程真機實驗與標(biāo)準(zhǔn)化測試環(huán)境。開發(fā)者可將基于Dexbotic開發(fā)的策略提交至該平臺,通過Table30桌面操作基準(zhǔn)測試集進行性能驗證。團隊計劃持續(xù)擴展預(yù)訓(xùn)練模型庫,集成仿真到真實世界的遷移學(xué)習(xí)工具鏈,并建立社區(qū)驅(qū)動的模型貢獻機制,邀請全球開發(fā)者參與生態(tài)共建。











