在人工智能研究領(lǐng)域,持續(xù)學(xué)習(xí)與知識(shí)鞏固的難題長期困擾著科學(xué)家。傳統(tǒng)大模型在預(yù)訓(xùn)練階段雖能吸收海量信息,卻在后續(xù)學(xué)習(xí)新內(nèi)容時(shí)面臨“災(zāi)難性遺忘”困境——新知識(shí)的學(xué)習(xí)往往導(dǎo)致舊技能衰退,如同用新磁帶覆蓋舊錄音。這一核心矛盾推動(dòng)Google Research團(tuán)隊(duì)提出突破性理論框架,試圖從底層重構(gòu)AI學(xué)習(xí)機(jī)制。
研究團(tuán)隊(duì)在論文《嵌套學(xué)習(xí):深度學(xué)習(xí)架構(gòu)的幻覺》中指出,當(dāng)前技術(shù)路徑的局限源于架構(gòu)與算法的割裂。過去研究者分兩條路線探索:一類通過設(shè)計(jì)記憶模塊優(yōu)化模型結(jié)構(gòu),另一類通過調(diào)整參數(shù)更新規(guī)則改進(jìn)算法,但兩者始終作為獨(dú)立組件發(fā)展。這種碎片化模式導(dǎo)致模型如同靜態(tài)知識(shí)庫,難以實(shí)現(xiàn)動(dòng)態(tài)知識(shí)積累。
嵌套學(xué)習(xí)理論的核心突破在于重新定義學(xué)習(xí)本質(zhì)。該理論認(rèn)為,復(fù)雜機(jī)器學(xué)習(xí)模型本質(zhì)是嵌套運(yùn)行的優(yōu)化問題集合。研究團(tuán)隊(duì)類比人類記憶系統(tǒng):瞬時(shí)記憶更新迅速,短期記憶次之,而世界觀等長期知識(shí)需長期沉淀。基于此,他們提出“更新頻率”概念——模型組件(如權(quán)重參數(shù)、優(yōu)化器動(dòng)量項(xiàng))以不同速度迭代,形成天然層級結(jié)構(gòu)。
以梯度下降為例,傳統(tǒng)視角下它僅是參數(shù)更新工具,但在嵌套框架中,外層參數(shù)優(yōu)化是慢速過程,而內(nèi)層權(quán)重更新規(guī)則本身構(gòu)成快速優(yōu)化問題。高級優(yōu)化器(如Adam)的動(dòng)量項(xiàng)更被視為微型記憶模塊,通過梯度壓縮存儲(chǔ)歷史信息。這種視角轉(zhuǎn)換首次將架構(gòu)設(shè)計(jì)與優(yōu)化算法統(tǒng)一為動(dòng)態(tài)學(xué)習(xí)系統(tǒng)。
基于統(tǒng)一框架,研究團(tuán)隊(duì)提出三大技術(shù)路徑:深度優(yōu)化器用小型神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)優(yōu)化器,形成“深度動(dòng)量梯度下降”,顯著提升歷史梯度利用效率;自修改架構(gòu)使模型具備動(dòng)態(tài)調(diào)整學(xué)習(xí)策略的能力,例如在序列任務(wù)中自主優(yōu)化注意力機(jī)制;連續(xù)記憶系統(tǒng)則打破短期/長期記憶的二元?jiǎng)澐郑ㄟ^多速率神經(jīng)網(wǎng)絡(luò)塊實(shí)現(xiàn)知識(shí)光譜式存儲(chǔ)——高頻塊處理即時(shí)上下文,中頻塊整合階段知識(shí),低頻塊沉淀抽象認(rèn)知。
融合三大技術(shù)的HOPE架構(gòu)(持久嵌入混合優(yōu)化器)將理論轉(zhuǎn)化為實(shí)踐。與傳統(tǒng)Transformer靜態(tài)前饋網(wǎng)絡(luò)不同,HOPE為每個(gè)記憶層級配備專屬前饋模塊,形成動(dòng)態(tài)知識(shí)系統(tǒng)。實(shí)驗(yàn)數(shù)據(jù)顯示,在語言建模和常識(shí)推理任務(wù)中,340M至1.3B參數(shù)規(guī)模的HOPE模型均超越對比模型,尤其在長上下文“針尖海草”任務(wù)中展現(xiàn)高效內(nèi)存管理,驗(yàn)證了連續(xù)記憶系統(tǒng)的優(yōu)勢。
這項(xiàng)研究為機(jī)器人、自動(dòng)駕駛等需要終身學(xué)習(xí)的領(lǐng)域開辟新路徑。傳統(tǒng)AI系統(tǒng)依賴高成本再訓(xùn)練,而嵌套學(xué)習(xí)框架使模型能像人類一樣在保留知識(shí)基礎(chǔ)上持續(xù)進(jìn)化。盡管當(dāng)前研究尚未涉及睡眠式離線整理機(jī)制,但其通過更新頻率分層實(shí)現(xiàn)的知識(shí)動(dòng)態(tài)管理,已為構(gòu)建通用人工智能提供關(guān)鍵理論支撐。











