人工智能領域迎來一項突破性進展——清華大學聯合北京大學、DeepLang AI及伊利諾伊大學香檳分校的研究團隊,開發出名為EAGLET的創新訓練框架,使AI智能體在復雜長期任務中展現出接近人類的全局規劃能力。這項成果已發表于arXiv預印本平臺,編號arXiv:2510.05608v1,為解決AI"無腦試錯"的痛點提供了全新解決方案。
傳統AI在處理簡單任務時表現優異,但面對需要多步驟協調的復雜場景時,往往陷入盲目探索的困境。研究團隊以"準備晚餐"為例:若缺乏整體規劃,AI可能先燒水再買菜,最終因烤箱未預熱而手忙腳亂。這種"走一步看一步"的模式,導致效率低下且成功率堪憂。現有訓練方法要么依賴昂貴的人工標注數據,要么通過海量試錯積累經驗,均無法實現真正的全局把控。
EAGLET框架的核心突破在于將規劃與執行徹底解耦。研究團隊首先構建了"冷啟動"階段,利用GPT-5等頂級大模型生成初始規劃樣本,再通過"同源共識過濾"機制篩選優質數據。該機制采用兩個能力不同但架構相似的執行器(基礎版與專家版Llama-3.1-8B模型),讓它們在有無規劃指導下分別執行任務。只有當兩個執行器在使用規劃時均顯著提升表現,該規劃才會被保留用于訓練。這種雙重驗證機制確保了訓練數據的高質量。
在強化學習階段,團隊創新性地提出"執行器能力增益獎勵"(ECGR)機制。與傳統方法單純以任務完成率為指標不同,ECGR通過比較不同能力執行器在有無規劃指導下的性能差異,量化規劃的實際價值。例如,對于簡單任務,規劃器會生成簡潔步驟;面對復雜場景,則提供詳細指導。這種"因材施教"的能力,使規劃器能靈活應對各種難度級別的任務。
實驗驗證環節,研究團隊在三個典型場景中展開測試:ScienceWorld模擬科學實驗室環境,要求AI完成測量物質熔點等實驗;ALFWorld模擬家庭場景,需執行"將加熱杯子放入櫥柜"等家務;WebShop則構建在線購物環境,考驗AI根據需求搜索商品的能力。結果顯示,配備EAGLET的智能體在所有場景中均表現卓越:ScienceWorld中已見任務成功率提升20%,未見任務提升25%;ALFWorld平均提升超15%;WebShop提升約10%。更關鍵的是,這些提升伴隨著步驟數的顯著減少,證明規劃器有效避免了無效探索。
訓練效率方面,EAGLET展現出驚人優勢。傳統強化學習需數百次迭代才能收斂,而EAGLET僅需約50次即可達到優異性能,訓練成本降低8倍。這種效率提升源于高質量初始數據和精準獎勵設計,使訓練過程更具針對性。訓練完成的規劃器具有強通用性,可輕松適配不同執行器,無需重復訓練。
消融實驗進一步揭示了各組件的貢獻:移除同源共識過濾導致性能下降3%,取消ECGR機制則下降5%,證明數據質量與獎勵設計同等重要。團隊還發現,將規劃信息直接嵌入任務指令的效果最佳,這為后續優化提供了方向。對比實驗顯示,EAGLET生成的規劃在正確性、可操作性和標準化程度上均優于直接使用GPT-4.1的規劃,證明專門訓練的優越性。
具體案例中,"將熱杯子放入櫥柜"任務暴露了傳統方法的缺陷:無規劃智能體反復聲明任務完成卻未實際執行;傳統MPO方法因錯誤假設陷入循環;而EAGLET智能體則系統搜索杯子,發現錯誤后及時糾正,最終僅用16步高效完成任務。這種目標導向的決策模式,標志著AI從反應式向預見式的轉變。
盡管成果顯著,研究團隊也指出當前局限:實驗主要基于文本交互環境,多模態場景適用性需進一步驗證;同源共識過濾依賴多個執行器,某些場景可能受限;跨領域泛化能力仍有提升空間。針對這些問題,團隊計劃探索多模態規劃、輕量化評估機制及更強泛化能力,推動技術向更廣泛應用場景拓展。
這項研究為AI發展開辟了新路徑。傳統方法側重模仿人類行為,而EAGLET讓機器學會像人類一樣思考規劃。這種轉變使AI從被動工具升級為主動助手,能夠理解深層需求、提出解決方案并協助實現復雜目標。在工業機器人裝配、服務機器人護理、自動駕駛導航等領域,這種全局規劃能力將成為核心競爭優勢。對技術細節感興趣的讀者,可通過論文編號arXiv:2510.05608v1查閱完整內容。











