在近期落幕的一場全球人工智能與機(jī)器人領(lǐng)域的重要會議上,具身智能成為行業(yè)關(guān)注的焦點(diǎn)。這一連接虛擬模型與物理世界的關(guān)鍵賽道,正吸引著眾多企業(yè)和科研力量投身其中。深圳極數(shù)迭代科技創(chuàng)始人佟顯喬博士在會上圍繞具身智能數(shù)據(jù)領(lǐng)域進(jìn)行了深度分享,為行業(yè)發(fā)展提供了新的思路。
當(dāng)前,語言大模型憑借海量數(shù)據(jù)實(shí)現(xiàn)了爆發(fā)式增長,而具身智能與機(jī)器人領(lǐng)域卻面臨著數(shù)據(jù)供給的巨大缺口。現(xiàn)有的數(shù)據(jù)集規(guī)模僅在數(shù)千至十幾萬小時,與語言模型的海量數(shù)據(jù)儲備差距明顯。數(shù)據(jù)作為具身智能發(fā)展的核心基石,其稀缺性、高成本與碎片化問題,嚴(yán)重制約了機(jī)器人泛化能力的提升。佟顯喬博士認(rèn)為,盡管目前具身數(shù)據(jù)量較少,但無論未來具身模型如何發(fā)展、本體怎樣迭代,數(shù)據(jù)始終是基石,未來幾年數(shù)據(jù)體量將大幅增長,具身數(shù)據(jù)服務(wù)有望成為機(jī)器人領(lǐng)域確定性的數(shù)據(jù)服務(wù)機(jī)會。
具身智能的數(shù)據(jù)瓶頸主要體現(xiàn)在三個方面。從泛化能力來看,類比 Scaling Law,目前機(jī)器人的泛化能力遠(yuǎn)不足,模仿學(xué)習(xí)需適配不同本體、數(shù)據(jù)和場景,但現(xiàn)有的數(shù)據(jù)采集和空間泛化能力嚴(yán)重不足。研究表明,泛化能力與數(shù)據(jù)數(shù)量呈冪律關(guān)系,現(xiàn)有數(shù)據(jù)量難以讓機(jī)器人達(dá)到較好的任務(wù)成功率,且在機(jī)器人領(lǐng)域 Scaling Law 依然存在,更多數(shù)據(jù)大概率能帶來更好效果,所以解決數(shù)據(jù)需求瓶頸迫在眉睫。從技術(shù)路線角度,無論是“小腦加大腦”的分層路線,還是端到端的數(shù)據(jù)路線,對具身數(shù)據(jù)的需求都十分龐大。“大腦”負(fù)責(zé)理解物理世界常識和人類指令、拆分復(fù)雜任務(wù);“小腦”或技能層面涉及抓取、按壓等動作,需要人類示教數(shù)據(jù)和機(jī)器人感知數(shù)據(jù),且要覆蓋不同場景,很多數(shù)據(jù)還需人類標(biāo)注;端到端訓(xùn)練是大腦與小腦的整合,不同流派方法不同,但都需要不同數(shù)據(jù)、人的參與以及不同場景和任務(wù)的泛化。從定性分析,滿足需求需大腦和小腦數(shù)據(jù)乘以不同機(jī)器人類別,而跨本體數(shù)據(jù)復(fù)用難,放大人類標(biāo)注演示或做更多泛化任務(wù)場景,成本都很高。因此,成本飛漲、模型跨本體能力弱導(dǎo)致數(shù)據(jù)孤島且標(biāo)準(zhǔn)難統(tǒng)一、難以評估數(shù)據(jù)實(shí)際能力,成為具身智能數(shù)據(jù)面臨的主要瓶頸。
具身智能數(shù)據(jù)本身是一項(xiàng)工程化工作,涵蓋從底層采集設(shè)計、數(shù)據(jù)標(biāo)準(zhǔn)確立,到真實(shí)環(huán)境和仿真環(huán)境下的采集部署等一系列環(huán)節(jié)。目前數(shù)據(jù)集種類多樣,包括操作類、移動類、邏輯語義類、導(dǎo)航類等,但各做各的,尚未出現(xiàn)能將所有數(shù)據(jù)聯(lián)系起來的通用模型。在數(shù)據(jù)采集方面,真機(jī)采集方式眾多,如遙操、示教、用末端執(zhí)行器動捕人類視覺數(shù)據(jù)學(xué)習(xí)、遙操同構(gòu)的遙操視學(xué)光冠操作等,不同方式在不同維度各有優(yōu)劣,不同團(tuán)隊(duì)和公司都在探索。仿真數(shù)據(jù)在軌跡合成、姿態(tài)合成、預(yù)測生成、決策生成等方面也有不同探索,部分團(tuán)隊(duì)認(rèn)為仿真數(shù)據(jù)可能比真機(jī)數(shù)據(jù)效果更好。
針對這些問題,目前沒有通用解法。需針對不同場景做系統(tǒng)設(shè)計,在高效性和可靠性間找到平衡,確立數(shù)據(jù)標(biāo)準(zhǔn),降低真機(jī)、真實(shí)世界和仿真數(shù)據(jù)成本,提升效率,優(yōu)化不同機(jī)器人和場景的部署。對于數(shù)據(jù)孤島問題,由于不同數(shù)據(jù)在有效性和通用性上存在差異,如遙操固定真機(jī)數(shù)據(jù)質(zhì)量高但通用性差,人類視頻數(shù)據(jù)量大但訓(xùn)練模型效果差,目前的解決方案是應(yīng)收盡收。
深圳極數(shù)迭代科技有限公司與深圳市人工智能與機(jī)器人研究院合作,推出了具身智能數(shù)據(jù)平臺 AIRSPEED。該平臺致力于兼容不同機(jī)器人本體和遙操設(shè)備,通過不同的機(jī)器人接口、遙操接口、仿真接口,實(shí)現(xiàn)真機(jī)、仿真以及不同機(jī)器人之間的良好兼容性,憑借高軟硬件和技術(shù)兼容性實(shí)現(xiàn)生產(chǎn)柔性化,高效生產(chǎn)數(shù)據(jù)。平臺架構(gòu)盡量減少用戶編程需求,用戶配置好接口后,通過一個接口就能實(shí)現(xiàn)全流程順暢的數(shù)據(jù)生產(chǎn),旨在成為第三方平臺,減少客戶適配不同機(jī)器人和數(shù)據(jù)的復(fù)雜工作。
該平臺不僅是一個技術(shù)解決方案,更是一個管理解決方案平臺。當(dāng)數(shù)據(jù)達(dá)到一定規(guī)模后,需要管理大規(guī)模采集員、標(biāo)注員,進(jìn)行任務(wù)調(diào)度、數(shù)據(jù)處理和標(biāo)注等系統(tǒng)工程,這些都能通過平臺高效管理。平臺針對真機(jī)數(shù)據(jù)提出“萬物皆可達(dá)”,適配不同采集方案,從遙操到示教類,分三個階段兼容,提供統(tǒng)一接口;針對仿真數(shù)據(jù)提出“萬物皆可生”,從軌跡合成、資產(chǎn)合成、決策生成和預(yù)測生成四個維度,統(tǒng)一管理不同仿真平臺和資產(chǎn)。平臺引入 AI Agent 概念,減輕任務(wù)管理員等工作負(fù)擔(dān),加入大模型用于自動標(biāo)注、自動資源管理和訓(xùn)練模型評測,旨在打造具身智能數(shù)據(jù)工具鏈,助力高效訓(xùn)練模型和快速部署。
目前,該平臺在真機(jī)和仿真方面都具備了快速迭代模型的能力,在真實(shí)世界數(shù)據(jù)集構(gòu)建上實(shí)現(xiàn)了 30 多倍加速,在仿真方面有 3.5 倍加速,期望以飛輪效應(yīng)不斷提升模型迭代效率。其數(shù)據(jù)管理平臺以數(shù)據(jù)集交付為中心,分開管理任務(wù)、設(shè)備、標(biāo)注、用戶,不同客戶可直接在平臺上進(jìn)行任務(wù)管理和生成,支持多種遙操作、動捕和 UMI 等設(shè)備接入,實(shí)現(xiàn)統(tǒng)一數(shù)據(jù)管理。目前,平臺已與遙操設(shè)備合作伙伴、數(shù)據(jù)采集盒子供應(yīng)商以及不同機(jī)器人廠商開展合作。公司專注于機(jī)器人數(shù)據(jù)、具身數(shù)據(jù)探索,以 AIRSPEED 平臺為核心產(chǎn)品提高數(shù)據(jù)效率,還著有相關(guān)書籍《具身智能數(shù)據(jù)工程》。用戶使用平臺時,可以數(shù)據(jù)集為中心建立不同數(shù)據(jù)集,選擇本體和遙操設(shè)備,批量建立任務(wù)后發(fā)給采集員采集數(shù)據(jù),采集完上傳平臺由標(biāo)注員標(biāo)注,審核員審核后導(dǎo)出標(biāo)準(zhǔn)數(shù)據(jù)集用于訓(xùn)練模型,平臺支持多種機(jī)器人和遙操設(shè)備,也支持在仿真環(huán)境進(jìn)行遙操和數(shù)據(jù)采集。











