在人工智能與機器人技術(shù)快速發(fā)展的今天,如何讓智能機器人擺脫“手忙腳亂”的困境,成為科研人員關(guān)注的焦點。中國電信人工智能研究院聯(lián)合清華大學(xué)、中國科學(xué)技術(shù)大學(xué)、香港科技大學(xué)等機構(gòu)的研究團隊,提出了一種名為TACO的創(chuàng)新解決方案,為機器人賦予了“三思而后行”的決策能力。這項突破性成果近日發(fā)布在arXiv預(yù)印本平臺,引發(fā)了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。
傳統(tǒng)智能機器人雖然通過海量數(shù)據(jù)訓(xùn)練掌握了多種技能,但在實際執(zhí)行任務(wù)時卻常常表現(xiàn)出“選擇困難”。例如,在抓取物體時,機器人可能同時掌握從頂部抓取和從側(cè)面抓取兩種方法,但無法判斷哪種方式更適合當(dāng)前場景。這種“多重人格”式的行為模式,導(dǎo)致同一任務(wù)的成功率因內(nèi)部隨機因素產(chǎn)生巨大波動,甚至出現(xiàn)“今天能完美完成任務(wù),明天卻錯誤百出”的極端情況。研究團隊通過實驗發(fā)現(xiàn),這種“推理時不穩(wěn)定性”嚴(yán)重制約了機器人的實際應(yīng)用價值。
TACO系統(tǒng)的核心創(chuàng)新在于為機器人構(gòu)建了一套“智能決策顧問”機制。該系統(tǒng)全稱為“Test-time Anti-exploration via pseudo-COunts”,其工作原理類似于經(jīng)驗豐富的品酒師:當(dāng)機器人面臨行動選擇時,系統(tǒng)會要求其同時生成多個可能的解決方案,然后通過“偽計數(shù)估計器”評估每個方案的歷史成功率。這個評估過程借鑒了離線強化學(xué)習(xí)中的“反探索”策略,優(yōu)先選擇那些在訓(xùn)練數(shù)據(jù)中被反復(fù)驗證的成功模式,而非冒險嘗試未知路徑。
技術(shù)實現(xiàn)上,研究團隊開發(fā)了三項關(guān)鍵技術(shù):首先是“投幣網(wǎng)絡(luò)”(Coin Flipping Network)構(gòu)建的偽計數(shù)估計器,它能像圖書管理員整理書籍一樣,為每種行動模式建立“出現(xiàn)頻率指紋”,從而快速判斷其可靠性;其次是“高保真特征搜索”技術(shù),通過生成帶噪聲的訓(xùn)練樣本并篩選最優(yōu)內(nèi)部表示,確保機器人對場景的理解準(zhǔn)確無誤;最后是“鍵值緩存優(yōu)化”機制,將多個行動方案的共同計算部分緩存共享,使決策效率提升73.2%,將原本需要數(shù)分鐘的決策過程縮短至幾秒鐘。
實驗驗證環(huán)節(jié),研究團隊在四個模擬基準(zhǔn)平臺和真實機器人平臺上進行了全面測試。在RoboTwin1.0基準(zhǔn)測試中,裝備TACO的機器人平均成功率提升9.1%,在“容器放置”等復(fù)雜任務(wù)中提升達15個百分點;真實世界實驗中,雙臂機器人RealMan75在執(zhí)行接收書本、操作筆記本電腦等五項日常任務(wù)時,成功率平均提升16%,復(fù)雜任務(wù)提升幅度甚至達到25%。更值得關(guān)注的是,該系統(tǒng)展現(xiàn)出強大的通用性,無論是基于流匹配技術(shù)的π0模型,還是自回歸架構(gòu)的OpenVLA模型,集成TACO后均獲得顯著性能提升。
深入機制分析顯示,TACO系統(tǒng)的有效性源于其獨特的“經(jīng)驗驅(qū)動”決策模式。研究發(fā)現(xiàn),由投幣網(wǎng)絡(luò)計算的“行動可靠性分?jǐn)?shù)”與實際任務(wù)成功率高度相關(guān),系統(tǒng)能準(zhǔn)確識別并規(guī)避那些“看似合理實則危險”的操作。例如,在濕滑表面抓取物體時,系統(tǒng)會主動避免高速移動等高風(fēng)險動作。組件重要性分析進一步證明,偽計數(shù)估計器、內(nèi)部表示利用和高保真特征搜索三者缺一不可,共同構(gòu)成了高效的決策閉環(huán)。
這項技術(shù)的突破性在于其“即插即用”特性。與傳統(tǒng)需要重新訓(xùn)練整個系統(tǒng)的改進方法不同,TACO可像智能插件一樣輕松集成到現(xiàn)有機器人系統(tǒng)中,為已投入大量訓(xùn)練資源的系統(tǒng)提供即時性能提升。這種設(shè)計理念不僅降低了技術(shù)升級成本,更為未來機器人發(fā)展指明了新方向——通過優(yōu)化決策機制而非單純增加訓(xùn)練數(shù)據(jù),實現(xiàn)智能水平的質(zhì)的飛躍。
當(dāng)前研究團隊正探索將TACO的“測試時優(yōu)化”理念擴展至語言模型、圖像生成等其他AI領(lǐng)域。同時,他們計劃改進偽計數(shù)估計器的評估精度,并研究如何將其與在線學(xué)習(xí)結(jié)合,使機器人能在實際使用中持續(xù)優(yōu)化決策能力。隨著這類技術(shù)的成熟,可靠穩(wěn)定的智能機器人有望更快走進日常生活,在家庭服務(wù)、工業(yè)生產(chǎn)、醫(yī)療護理等領(lǐng)域發(fā)揮更大價值。
Q&A
Q1:TACO系統(tǒng)如何解決機器人“選擇困難”問題?A:該系統(tǒng)通過生成多個行動方案并評估其歷史成功率,幫助機器人選擇最可靠的執(zhí)行路徑。其核心的偽計數(shù)估計器能快速判斷每種動作模式在訓(xùn)練數(shù)據(jù)中的出現(xiàn)頻率,優(yōu)先選擇被反復(fù)驗證的成功方案,從而避免隨機選擇導(dǎo)致的失敗。
Q2:TACO系統(tǒng)的技術(shù)優(yōu)勢體現(xiàn)在哪些方面?A:主要體現(xiàn)為三點:一是即插即用的兼容性,可無縫集成到現(xiàn)有機器人系統(tǒng);二是高效的決策速度,通過鍵值緩存優(yōu)化將計算時間縮短73.2%;三是強大的通用性,適用于不同架構(gòu)的機器人模型和多種任務(wù)場景。實驗證明其能顯著提升任務(wù)成功率并改善動作穩(wěn)定性。











