谷歌研究院近日在機(jī)器學(xué)習(xí)領(lǐng)域取得重要突破,針對(duì)大語(yǔ)言模型持續(xù)學(xué)習(xí)時(shí)面臨的“災(zāi)難性遺忘”難題,提出名為“嵌套學(xué)習(xí)”的全新范式,相關(guān)成果已發(fā)表于國(guó)際頂級(jí)會(huì)議NeurIPS 2025。
傳統(tǒng)大語(yǔ)言模型雖具備強(qiáng)大能力,但知識(shí)獲取方式存在顯著局限。其知識(shí)體系主要依賴預(yù)訓(xùn)練階段的靜態(tài)數(shù)據(jù),或受限于有限的上下文窗口長(zhǎng)度,無(wú)法像人類大腦般通過(guò)“神經(jīng)可塑性”機(jī)制動(dòng)態(tài)更新知識(shí)——即根據(jù)新經(jīng)驗(yàn)調(diào)整認(rèn)知結(jié)構(gòu)而不丟失原有能力。當(dāng)直接用新數(shù)據(jù)覆蓋舊模型時(shí),常出現(xiàn)新任務(wù)表現(xiàn)提升但舊任務(wù)性能斷崖式下降的“災(zāi)難性遺忘”現(xiàn)象。
研究團(tuán)隊(duì)提出的嵌套學(xué)習(xí)范式,通過(guò)重構(gòu)機(jī)器學(xué)習(xí)模型的底層架構(gòu)解決了這一矛盾。該范式將復(fù)雜模型視為多層次嵌套的優(yōu)化問(wèn)題集合,每個(gè)子問(wèn)題擁有獨(dú)立的“上下文流”和更新節(jié)奏。這種設(shè)計(jì)突破了傳統(tǒng)模型架構(gòu)與優(yōu)化算法分離的局限,為構(gòu)建計(jì)算深度更強(qiáng)的AI組件提供了新維度。
基于該理論框架,研究團(tuán)隊(duì)開(kāi)發(fā)了兩項(xiàng)關(guān)鍵技術(shù):一是“深度優(yōu)化器”,通過(guò)將優(yōu)化過(guò)程本身轉(zhuǎn)化為可學(xué)習(xí)模塊,并優(yōu)化其目標(biāo)函數(shù)設(shè)計(jì),使模型對(duì)數(shù)據(jù)噪聲和分布變化具有更強(qiáng)適應(yīng)性;二是“連續(xù)體內(nèi)存系統(tǒng)”,該系統(tǒng)將模型記憶分解為多個(gè)更新頻率不同的模塊,形成從短期到長(zhǎng)期的平滑過(guò)渡,構(gòu)建出更高效的持續(xù)學(xué)習(xí)內(nèi)存架構(gòu)。
為驗(yàn)證理論有效性,團(tuán)隊(duì)構(gòu)建了名為“Hope”的概念驗(yàn)證模型。該模型基于Titans架構(gòu)設(shè)計(jì),通過(guò)自修改循環(huán)網(wǎng)絡(luò)深度整合連續(xù)體內(nèi)存系統(tǒng),實(shí)現(xiàn)多層級(jí)上下文學(xué)習(xí)。實(shí)驗(yàn)數(shù)據(jù)顯示,在語(yǔ)言建模和常識(shí)推理任務(wù)中,Hope模型的困惑度指標(biāo)較現(xiàn)代循環(huán)模型和標(biāo)準(zhǔn)Transformer顯著降低,準(zhǔn)確率大幅提升。
在針對(duì)長(zhǎng)文本處理能力的“大海撈針”測(cè)試中,Hope模型展現(xiàn)出卓越優(yōu)勢(shì)。該測(cè)試要求模型從超長(zhǎng)文本中精準(zhǔn)定位并回答特定問(wèn)題,實(shí)驗(yàn)結(jié)果表明,連續(xù)體內(nèi)存系統(tǒng)能有效處理超長(zhǎng)信息序列,為開(kāi)發(fā)具備持續(xù)學(xué)習(xí)能力的AI系統(tǒng)提供了關(guān)鍵技術(shù)路徑。
據(jù)悉,“大海撈針”測(cè)試是評(píng)估大語(yǔ)言模型長(zhǎng)文本理解能力的重要基準(zhǔn),通過(guò)模擬從海量信息中提取關(guān)鍵內(nèi)容場(chǎng)景,驗(yàn)證模型在真實(shí)應(yīng)用場(chǎng)景中的信息檢索可靠性。此次突破標(biāo)志著AI模型向“溫故知新”的類人學(xué)習(xí)能力邁出重要一步。











