日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

全面戰(zhàn)勝ReAct!斯坦福全新智能體推理框架,性能提升112.5%

   時間:2025-12-05 09:19:06 來源:互聯(lián)網(wǎng)編輯:茹茹 IP:北京 發(fā)表評論無障礙通道

斯坦福和MIT的研究團(tuán)隊推出了一種新的AI智能體推理框架ReCAP,在長上下文任務(wù)中全面超越了現(xiàn)有的主流框架ReAct,性能提升顯著。ReCAP通過獨特的遞歸樹結(jié)構(gòu)和三大機制,解決了大語言模型在復(fù)雜任務(wù)中常見的目標(biāo)漂移、上下文斷層和成本爆炸等問題。在多項基準(zhǔn)測試中,ReCAP均取得了大幅領(lǐng)先的成績,展現(xiàn)出強大的通用性和穩(wěn)定性。盡管計算成本略有增加,但其在關(guān)鍵任務(wù)中的表現(xiàn)使其成為極具潛力的新一代通用推理架構(gòu)。

自2022年ReAct框架提出以來,AI智能體推理領(lǐng)域便進(jìn)入了百家爭鳴的時代,各種復(fù)雜架構(gòu)如雨后春筍般涌現(xiàn)。

然而,這些架構(gòu)大多曇花一現(xiàn),因其復(fù)雜的結(jié)構(gòu)導(dǎo)致在更換評測基準(zhǔn)時需要大幅修改示例,表現(xiàn)遠(yuǎn)不如ReAct穩(wěn)定泛用,這也使得ReAct在過去三年中,成為了該領(lǐng)域事實上的主流與標(biāo)桿。

但是,我們真的不能再做得更好了嗎?

面對大模型在長上下文任務(wù)中走幾步就忘的短期記憶頑疾,業(yè)界是否只能止步于此?

來自斯坦福大學(xué)與MIT的研究團(tuán)隊給出了肯定答案,正式發(fā)布的AI Agent推理新框架——ReCAP(遞歸上下文感知推理與規(guī)劃),從真正意義上統(tǒng)一了序列推理和層級推理,在多種任務(wù)中全面戰(zhàn)勝了ReAct,且繼承了ReAct示例簡單、高通用性,和即插即用的優(yōu)勢。

在嚴(yán)格遵循 pass@1(一次通過)的評測原則下,ReCAP在長序列具身任務(wù)Robotouille上相比ReAct基線取得了84.2%(同步)和112.5%(異步)的巨大性能提升。

長上下文任務(wù)的三大「死穴」

團(tuán)隊指出,當(dāng)今大語言模型在執(zhí)行復(fù)雜任務(wù)時普遍有三種問題:

目標(biāo)漂移(Goal Drift):執(zhí)行幾步后就逐漸忽略了原本的目標(biāo),使得執(zhí)行結(jié)果與期望不符。

上下文斷層(Context Loss):高層的規(guī)劃信息在長序列執(zhí)行中丟失,導(dǎo)致高層思考與低層執(zhí)行不協(xié)調(diào)。

成本爆炸(Prompt Explosion):每次遞歸都重新鋪開上下文示例和提示詞,推理成本指數(shù)增長。

簡單說,LLM就像一個短期記憶型天才,而主流推理框架各有局限:

序列推理(例如Chain of Thoughts,ReAct)雖然上下文連貫,但常常因為任務(wù)太長導(dǎo)致目標(biāo)漂移;

層級推理(例如ADaPT,THREAD)將任務(wù)分解為子任務(wù)來明確目標(biāo),但給子任務(wù)單獨分配上下文示例和提示詞,導(dǎo)致上下文斷層和成本爆炸。

ReCAP

讓序列推理和層級推理有機結(jié)合

ReCAP的核心在于將一個有記憶、有反饋的遞歸樹結(jié)構(gòu)作為模型的工作記憶區(qū),其三大機制環(huán)環(huán)相扣:

計劃前瞻分解(Recursive Task Decomposition with Plan-Ahead):模型首先生成一個完整的子任務(wù)列表,但只執(zhí)行第一個子任務(wù),完成后再動態(tài)優(yōu)化后續(xù)計劃。

結(jié)構(gòu)化父任務(wù)再注入(Consistent Multi-level Context and Structured Injection):整個執(zhí)行流程只有一個上下文,由所有任務(wù)共享。每次子任務(wù)遞歸返回時,父任務(wù)會將自身的思考和計劃再次注入上下文,使父任務(wù)在重新計劃時可以參考上次的思維和執(zhí)行結(jié)果,規(guī)劃出能真正達(dá)成任務(wù)目標(biāo)的底層操作。

滑動窗口記憶(Sliding Window and Scalable Memory Efficiency):通過滑動窗口機制,在統(tǒng)一上下文中只保留最新關(guān)鍵歷史,實現(xiàn)了內(nèi)存占用可控的深度遞歸,從根本上杜絕了成本爆炸。

實驗結(jié)果

長上下文任務(wù)性能大幅躍升

團(tuán)隊在多個典型長上下文推理基準(zhǔn)上驗證了ReCAP的效果。結(jié)果令人矚目:

在Robotouille(同步)上取得70%成功率,較ReAct(38%)提升84.2%

在Robotouille(異步)上取得53%成功率,較ReAct(24%)提升112.5%

在ALFWorld上取得91%成功率,穩(wěn)定優(yōu)于ReAct(84%)

在SWE-bench Verified取得44.8%的成功率,優(yōu)于ReAct基線(39.58%)

團(tuán)隊在實驗中始終秉持pass@1的實驗原則,即不使用樣本層面的重試、多數(shù)投票或者束搜索。這意味著ReCAP能在真實多步環(huán)境中,更好地保持目標(biāo)一致性與執(zhí)行連貫性——不僅「想得對」,還能「做得穩(wěn)」。

ReCAP是除ReAct之外,又一個能夠在具身推理、以及代碼編輯這兩種截然不同的任務(wù)上都取得穩(wěn)健表現(xiàn)的通用推理架構(gòu)。

論文中排除了THREAD、Reflexion等其他基線,因其在實驗設(shè)置中難以穩(wěn)定復(fù)現(xiàn)或與 pass@1 協(xié)議不兼容,這進(jìn)一步凸顯了ReCAP作為新一代通用推理基線的潛力。

優(yōu)勢與成本的權(quán)衡

任何強大的能力都伴隨著成本。團(tuán)隊對此進(jìn)行了透明分析:ReCAP的總計算成本約為ReAct的三倍。這主要來自于其核心的計劃前瞻分解機制所額外需要的LLM調(diào)用。

然而,考慮到其在關(guān)鍵任務(wù)上帶來的性能巨幅提升與目標(biāo)一致性,這種成本的增加在對準(zhǔn)確性要求高的實際應(yīng)用中是可以接受的。這為開發(fā)者提供了一個清晰的性價比權(quán)衡選項。

遞歸,是通往通用智能的鑰匙?

從人類思維到圖靈機,遞歸始終是智能的底層邏輯。ReCAP的提出,可視為AI邁向通用推理系統(tǒng)的關(guān)鍵一步。

其潛力遠(yuǎn)不止于論文所驗證的任務(wù)范疇。任何依賴復(fù)雜決策回路與長期上下文記憶的大型任務(wù),都是ReCAP的理想應(yīng)用場景。

例如在深度研究中自主遍歷文獻(xiàn)、整合多源信息并生成洞察報告;或在復(fù)雜軟件工程中管理龐大代碼庫與依賴關(guān)系,推進(jìn)需多步驗證的系統(tǒng)項目。

長遠(yuǎn)來看,ReCAP的遞歸規(guī)劃能力可以與空間智能相結(jié)合,解決更為復(fù)雜的現(xiàn)實世界問題。李飛飛教授近日指出,空間智能——即理解、推理并與三維世界交互的能力,是AI的下一個前沿。

ReCAP可以為具身智能機器人規(guī)劃復(fù)雜的長期任務(wù)序列,而空間智能模型則負(fù)責(zé)處理實時感知與動作控制,二者結(jié)合實現(xiàn)機器人在動態(tài)環(huán)境中的自主規(guī)劃與可靠執(zhí)行。

隨著代碼的開源,一個更擅長長期規(guī)劃、穩(wěn)健執(zhí)行的AI時代或許即將到來。

作者介紹

共同一作 Zhenyu Zhang, Tianyi Chen, Weiran Xu 均為斯坦福大學(xué)工程學(xué)院計算機系碩士研究生

Alex Pentland教授,麻省理工學(xué)院媒體實驗室 創(chuàng)始人之一,美國國家工程院院士,Toshiba Professor at MIT,斯坦福大學(xué) HAI Fellow。

Jiaxin Pei博士,斯坦福大學(xué)博士后研究員,研究興趣集中在大語言模型、人機交互、Agentic AI,即將前往得克薩斯大學(xué)奧斯汀分校任教。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
国产成人av影院| 国产欧美一区二区三区在线看蜜臀| 91在线丨porny丨国产| 国产在线一区观看| 久久精品国产免费看久久精品| 日韩黄色一级片| 日本不卡视频一二三区| 日本在线播放一区二区三区| 视频在线观看一区| 免费黄网站欧美| 韩国av一区二区三区| 国产99久久久精品| av一二三不卡影片| 91麻豆成人久久精品二区三区| 色婷婷av一区二区| 欧美无砖砖区免费| 欧美一二三区在线| 久久亚洲一级片| 国产精品久久久久久亚洲毛片| 中文字幕一区二区三区乱码在线| 亚洲欧美国产77777| 亚洲mv大片欧洲mv大片精品| 美女mm1313爽爽久久久蜜臀| 国内成人免费视频| 成年人网站91| 欧美午夜精品久久久| 欧美成人在线直播| 日本一区二区免费在线观看视频 | 久久精品一二三| 国产精品二区一区二区aⅴ污介绍| 亚洲欧美怡红院| 亚洲国产一区二区三区 | 欧美男男青年gay1069videost | 久久婷婷国产综合精品青草| 国产精品网站在线观看| 夜色激情一区二区| 看片的网站亚洲| 99精品视频一区二区三区| 91成人在线免费观看| 日韩三级电影网址| 欧美国产成人精品| 亚洲大片免费看| 国产精品夜夜嗨| 欧美性猛片xxxx免费看久爱| 日韩精品专区在线| 亚洲日本欧美天堂| 美女网站色91| 91蝌蚪porny九色| 日韩欧美卡一卡二| 亚洲精品高清在线| 精品一区二区免费| 欧美亚洲另类激情小说| 久久―日本道色综合久久| 悠悠色在线精品| 日本黄色一区二区| 欧美精品一区二区久久婷婷| 有坂深雪av一区二区精品| 国产精品亚洲一区二区三区妖精 | 91同城在线观看| 日韩视频在线永久播放| 亚洲视频香蕉人妖| 九九在线精品视频| 欧美日韩在线精品一区二区三区激情 | 黄色成人免费在线| 欧美丝袜丝交足nylons| 国产欧美精品一区| 美国三级日本三级久久99| 色狠狠av一区二区三区| 国产午夜精品一区二区三区视频| 亚洲国产精品久久久男人的天堂| 高清不卡在线观看av| 欧美一区二区视频观看视频| 亚洲久草在线视频| 成人午夜私人影院| 精品第一国产综合精品aⅴ| 天堂午夜影视日韩欧美一区二区| 99久久国产免费看| 久久综合五月天婷婷伊人| 五月天久久比比资源色| 色综合咪咪久久| 中文字幕乱码一区二区免费| 在线视频国内自拍亚洲视频| 这里只有精品电影| 国产精品一区二区免费不卡| 欧美群妇大交群中文字幕| 亚洲一区二区三区三| 91性感美女视频| 中文字幕一区二区三区四区 | 欧美主播一区二区三区美女| 久久美女艺术照精彩视频福利播放 | 日韩欧美激情在线| 亚洲成人先锋电影| 91精彩视频在线| 一二三区精品视频| 91福利精品第一导航| 一区二区三区国产豹纹内裤在线| 99久久精品一区二区| 国产精品色呦呦| 成人在线综合网| 国产精品美日韩| 99久久精品国产一区| 最新国产精品久久精品| 成人免费视频视频在线观看免费| 国产色产综合产在线视频| 国产精品正在播放| 亚洲国产精品ⅴa在线观看| 成人黄色大片在线观看| 国产精品电影一区二区三区| av亚洲产国偷v产偷v自拍| 亚洲欧洲成人自拍| 在线观看一区二区视频| 亚洲一二三四区| 91.麻豆视频| 久久99精品久久久久久| 国产日产欧美一区| 不卡在线视频中文字幕| 亚洲精品va在线观看| 欧美日韩美少妇| 日韩在线一区二区三区| 欧美成人一区二区三区| 国产·精品毛片| 亚洲黄色免费电影| 欧洲一区二区三区在线| 日产精品久久久久久久性色| 精品国产一区二区三区不卡| 国产一区二区看久久| 国产精品青草综合久久久久99| 91网页版在线| 免费精品视频在线| 欧美激情中文不卡| 欧美午夜视频网站| 久久成人18免费观看| 中国av一区二区三区| 在线看国产一区二区| 精品在线亚洲视频| 国产精品毛片大码女人| 欧美午夜精品久久久久久孕妇| 久久精品99国产精品日本| 国产精品女主播av| 欧美日韩视频在线第一区| 精品无人码麻豆乱码1区2区 | 亚洲精品在线免费播放| 国产91精品精华液一区二区三区| 一区二区三区产品免费精品久久75| 欧美精选一区二区| 福利一区福利二区| 亚洲一区免费视频| 精品日韩av一区二区| 91视视频在线直接观看在线看网页在线看 | 亚洲另类春色校园小说| 日韩欧美成人午夜| bt7086福利一区国产| 日本视频一区二区| 中文字幕一区av| 日韩欧美色综合| 在线精品视频免费观看| 国产精品自拍在线| 午夜婷婷国产麻豆精品| 国产精品美女久久久久aⅴ国产馆| 在线成人免费观看| www.亚洲免费av| 久久精品国产99国产精品| 亚洲美女免费视频| 久久精品欧美日韩精品| 69精品人人人人| 波多野结衣在线一区| 另类小说色综合网站| 韩国女主播一区| 亚洲第一狼人社区| 亚洲视频一区在线观看| 精品sm捆绑视频| 欧美精品乱码久久久久久按摩 | 欧美成人女星排名| 欧美视频日韩视频| av激情亚洲男人天堂| 免费成人在线影院| 亚洲国产成人av| 亚洲精品中文在线| 国产精品乱码久久久久久| 精品国产乱码久久久久久老虎| 欧美日韩在线播放一区| 91性感美女视频| 成人国产亚洲欧美成人综合网| 九色porny丨国产精品| 日韩福利电影在线| 亚洲在线视频免费观看| 亚洲乱码日产精品bd| 国产精品久久久久影院色老大| 欧美成人午夜电影| 日韩女同互慰一区二区| 欧美精品v国产精品v日韩精品 | 欧美一区二区三区白人| 欧美最猛性xxxxx直播| 91视频91自| www.亚洲色图.com| 99精品国产99久久久久久白柏 | 久久五月婷婷丁香社区| 日韩欧美中文一区| 欧美一区二区美女| 91精品国产综合久久精品app|