在機(jī)器人技術(shù)領(lǐng)域,視覺(jué)系統(tǒng)一直是制約機(jī)器人智能化水平的關(guān)鍵瓶頸。來(lái)自加州大學(xué)伯克利分校、卡內(nèi)基梅隆大學(xué)等六所頂尖高校的聯(lián)合研究團(tuán)隊(duì),近日在arXiv平臺(tái)發(fā)布了一項(xiàng)突破性成果——VER(Vision Expert transformer for Robot learning)視覺(jué)系統(tǒng)。這項(xiàng)創(chuàng)新技術(shù)通過(guò)模擬人類認(rèn)知機(jī)制,為機(jī)器人視覺(jué)系統(tǒng)賦予了動(dòng)態(tài)調(diào)配專業(yè)能力的"智慧大腦",在17項(xiàng)機(jī)器人任務(wù)測(cè)試中展現(xiàn)出超越現(xiàn)有技術(shù)的性能表現(xiàn)。
傳統(tǒng)機(jī)器人視覺(jué)系統(tǒng)采用"一刀切"的設(shè)計(jì)模式,如同要求人類用同一副眼鏡完成閱讀、駕駛和手術(shù)等不同任務(wù)。這種固定配置在面對(duì)多樣化場(chǎng)景時(shí)往往力不從心,例如在精密操作中需要聚焦細(xì)節(jié),而在導(dǎo)航任務(wù)中則需要全局感知。研究團(tuán)隊(duì)負(fù)責(zé)人王一瀟博士指出:"現(xiàn)有系統(tǒng)就像把三位語(yǔ)言專家的知識(shí)強(qiáng)行灌輸給一個(gè)人,結(jié)果導(dǎo)致說(shuō)話時(shí)三種語(yǔ)言混雜,反而無(wú)法有效溝通。"
VER系統(tǒng)的創(chuàng)新之處在于構(gòu)建了模塊化的專家?guī)旒軜?gòu)。該系統(tǒng)包含基礎(chǔ)視覺(jué)變換器和視覺(jué)專家?guī)靸纱蠛诵慕M件,前者負(fù)責(zé)基礎(chǔ)圖像處理,后者則集成了物體識(shí)別、空間理解、精細(xì)操作等12個(gè)專業(yè)模塊。當(dāng)機(jī)器人執(zhí)行不同任務(wù)時(shí),系統(tǒng)會(huì)智能激活最相關(guān)的2-3個(gè)專家模塊,這種動(dòng)態(tài)組合模式使系統(tǒng)在廚房操作任務(wù)中成功率達(dá)到74.7%,較現(xiàn)有最佳方案提升12個(gè)百分點(diǎn)。
研究團(tuán)隊(duì)開(kāi)發(fā)的"課程TopK退火"訓(xùn)練策略堪稱技術(shù)亮點(diǎn)。該策略模擬人類學(xué)習(xí)過(guò)程,初期讓系統(tǒng)全面接觸所有專家知識(shí),隨著訓(xùn)練深入逐步聚焦核心能力。實(shí)驗(yàn)數(shù)據(jù)顯示,這種漸進(jìn)式訓(xùn)練使系統(tǒng)在筆類操作等精細(xì)任務(wù)中成功率突破80%,同時(shí)將計(jì)算資源消耗降低40%。卡內(nèi)基梅隆大學(xué)霍明霄教授解釋:"這就像培養(yǎng)外科醫(yī)生,先廣泛學(xué)習(xí)醫(yī)學(xué)知識(shí),再專注手術(shù)技能,最終形成專業(yè)特長(zhǎng)。"
系統(tǒng)采用的補(bǔ)丁級(jí)專家路由機(jī)制實(shí)現(xiàn)了視覺(jué)注意力的智能分配。通過(guò)將圖像分解為數(shù)百個(gè)局部區(qū)域,系統(tǒng)能為每個(gè)區(qū)域獨(dú)立匹配最佳專家。在倒茶任務(wù)測(cè)試中,系統(tǒng)自動(dòng)將茶壺區(qū)域分配給物體識(shí)別專家,水流軌跡分配給運(yùn)動(dòng)分析專家,手部動(dòng)作分配給精細(xì)操作專家。這種分工協(xié)作模式使系統(tǒng)在人為干擾下仍能完成倒茶動(dòng)作,展現(xiàn)出強(qiáng)大的環(huán)境適應(yīng)能力。
工程實(shí)現(xiàn)上的輕量化設(shè)計(jì)是VER系統(tǒng)的另一突破。整個(gè)系統(tǒng)的可訓(xùn)練參數(shù)僅占總參數(shù)的0.38%,相當(dāng)于在智能手機(jī)上運(yùn)行超級(jí)計(jì)算機(jī)程序。這種設(shè)計(jì)使新任務(wù)適應(yīng)時(shí)間從傳統(tǒng)方法的72小時(shí)縮短至15分鐘,且無(wú)需重新訓(xùn)練整個(gè)系統(tǒng)。研究團(tuán)隊(duì)演示的廚房場(chǎng)景中,機(jī)器人能在10分鐘內(nèi)學(xué)會(huì)使用微波爐、開(kāi)關(guān)抽屜等新技能,驗(yàn)證了系統(tǒng)的快速學(xué)習(xí)能力。
在meta-World虛擬操作環(huán)境中,VER系統(tǒng)展現(xiàn)了跨策略頭適應(yīng)能力。面對(duì)擴(kuò)散策略、流匹配策略等不同決策機(jī)制,系統(tǒng)均能保持穩(wěn)定性能,就像精通多種方言的翻譯官。這種通用性使系統(tǒng)可無(wú)縫集成到不同品牌的機(jī)器人中,為產(chǎn)業(yè)化應(yīng)用鋪平道路。測(cè)試數(shù)據(jù)顯示,系統(tǒng)在物體重定位任務(wù)中成功率達(dá)64%,較傳統(tǒng)方法提升28個(gè)百分點(diǎn)。
技術(shù)架構(gòu)的模塊化設(shè)計(jì)支持系統(tǒng)持續(xù)進(jìn)化。當(dāng)遇到全新任務(wù)時(shí),只需添加針對(duì)性訓(xùn)練的專家模塊,原有系統(tǒng)性能不受影響。研究團(tuán)隊(duì)演示的"專家蒸餾"技術(shù),能將基礎(chǔ)模型的知識(shí)高效轉(zhuǎn)化為專用專家,使新專家訓(xùn)練時(shí)間縮短60%。這種開(kāi)放架構(gòu)為系統(tǒng)應(yīng)對(duì)未來(lái)復(fù)雜場(chǎng)景提供了無(wú)限可能。
這項(xiàng)成果在學(xué)術(shù)界引發(fā)廣泛關(guān)注。專家認(rèn)為,VER系統(tǒng)開(kāi)創(chuàng)的動(dòng)態(tài)專家調(diào)配機(jī)制,為解決人工智能領(lǐng)域的"災(zāi)難性遺忘"問(wèn)題提供了新思路。其輕量化設(shè)計(jì)更突破了機(jī)器人部署的算力瓶頸,使高端視覺(jué)技術(shù)能夠普及到家用服務(wù)機(jī)器人領(lǐng)域。隨著系統(tǒng)向多模態(tài)感知擴(kuò)展,未來(lái)的機(jī)器人有望具備更接近人類的環(huán)境理解能力。











