谷歌DeepMind在國際數(shù)學(xué)奧林匹克競賽(IMO)中再獲突破,其研發(fā)的AlphaProof模型成功斬獲金牌。這一成果以完整論文形式發(fā)表于《自然》期刊,首次詳細披露了該系統(tǒng)的技術(shù)架構(gòu)與訓(xùn)練方法。值得注意的是,曾實現(xiàn)“無師自通”下棋的AlphaZero相關(guān)技術(shù),在此次研究中被多次借鑒與改進。
項目核心團隊規(guī)模精簡,長期保持約十名成員,僅在IMO賽事臨近時擴充人手。突破性進展源于團隊成員、IMO金牌得主米克洛什·霍瓦特提出的創(chuàng)新方法:通過生成數(shù)學(xué)問題的多樣化變體,構(gòu)建智能體的訓(xùn)練環(huán)境。這些變體涵蓋簡化版本、推廣形式及結(jié)構(gòu)類似的問題,使系統(tǒng)能在更廣泛的場景中積累解題經(jīng)驗。
AlphaProof將數(shù)學(xué)證明轉(zhuǎn)化為強化學(xué)習(xí)任務(wù),基于Lean定理證明器搭建訓(xùn)練環(huán)境。每個數(shù)學(xué)命題被視為獨立關(guān)卡,系統(tǒng)需選擇策略推進證明進程。成功策略將生成新子目標(biāo),直至所有目標(biāo)完成即證明成功。其核心采用30億參數(shù)的編碼器-解碼器Transformer模型,該模型需同時輸出策略建議與剩余步驟預(yù)估,優(yōu)化計算資源分配效率。
搜索算法層面,系統(tǒng)在AlphaZero樹搜索基礎(chǔ)上引入AND-OR樹結(jié)構(gòu),可分解證明中的多重獨立條件為子問題逐個攻克。漸進采樣機制則允許在關(guān)鍵路徑探索更多策略。訓(xùn)練數(shù)據(jù)構(gòu)建分為三階段:首先用3000億token的代碼與數(shù)學(xué)文本預(yù)訓(xùn)練模型;隨后通過Mathlib庫的30萬個人工證明微調(diào);最終利用基于Gemini 1.5 Pro開發(fā)的翻譯系統(tǒng),將約100萬道自然語言數(shù)學(xué)題轉(zhuǎn)化為8000萬道形式化問題,數(shù)據(jù)規(guī)模遠超現(xiàn)有集合。
主訓(xùn)練階段消耗約8萬TPU日計算資源,系統(tǒng)通過持續(xù)嘗試證明或反證自動生成命題,成功案例用于更新神經(jīng)網(wǎng)絡(luò)。即便形式化結(jié)果存在誤差,只要命題有效,系統(tǒng)仍能從中學(xué)習(xí)。測試階段采用雙循環(huán)機制:主循環(huán)處理大規(guī)模自動生成問題;測試時強化學(xué)習(xí)循環(huán)針對特定難題生成約40萬個變體,啟動獨立訓(xùn)練進程積累解題洞察。
在2024年IMO賽事中,AlphaProof展現(xiàn)強大實力,成功解決代數(shù)與數(shù)論領(lǐng)域三道題目,其中包括僅5名選手完全攻克的最高難度試題P6。面對難題時,系統(tǒng)通過生成特殊變體(如限定有理數(shù)范圍、強化條件假設(shè))進行專項訓(xùn)練,每題需2-3日計算時間。團隊透露,賽事期間部分證明系統(tǒng)僅能確保銅牌成績,直至后臺運行的測試時強化學(xué)習(xí)完成三道完整證明,才最終鎖定金牌。
目前DeepMind已向科研界開放AlphaProof使用權(quán)限,多位數(shù)學(xué)家分享了試用體驗。羅格斯大學(xué)學(xué)者發(fā)現(xiàn)系統(tǒng)擅長發(fā)現(xiàn)反例,助力修正理論假設(shè);伊利諾伊大學(xué)團隊用其驗證棘手引理,一分鐘內(nèi)完成證明或找出定義漏洞;倫敦帝國理工學(xué)院測試費馬大定理證明時則遇到挑戰(zhàn),顯示系統(tǒng)在處理全新數(shù)學(xué)概念時仍存在局限。
研究團隊指出,系統(tǒng)對Lean定理證明器的依賴構(gòu)成雙重影響:活躍的社區(qū)支持推動其在成熟數(shù)學(xué)子領(lǐng)域表現(xiàn)優(yōu)異,但證明器的持續(xù)演進也帶來環(huán)境不穩(wěn)定性。數(shù)據(jù)局限性同樣突出,盡管變體生成技術(shù)取得進展,但創(chuàng)建真正原創(chuàng)的數(shù)學(xué)問題仍需突破。該成果為AI數(shù)學(xué)研究提供了新范式,其技術(shù)路徑印證了專家關(guān)于AI在封閉系統(tǒng)中超越人類潛力的預(yù)測。
論文全文鏈接:https://www.nature.com/articles/s41586-025-09833-y
相關(guān)技術(shù)討論:https://www.nature.com/articles/d41586-025-03585-5











