人工智能領(lǐng)域迎來重大突破,DeepSeek團(tuán)隊(duì)近日在Hugging Face平臺發(fā)布了全新數(shù)學(xué)推理模型DeepSeek-Math-V2。該模型在定理證明能力上實(shí)現(xiàn)質(zhì)的飛躍,不僅超越了Gemini DeepThink等主流模型,更在國際數(shù)學(xué)奧林匹克競賽(IMO)級別的測試中達(dá)到金牌標(biāo)準(zhǔn)。
研發(fā)團(tuán)隊(duì)在論文中指出,現(xiàn)有AI數(shù)學(xué)模型普遍存在"重結(jié)果輕過程"的缺陷。傳統(tǒng)訓(xùn)練方式僅以最終答案正確性作為評判標(biāo)準(zhǔn),導(dǎo)致模型在復(fù)雜證明題中常出現(xiàn)"邏輯跳躍"或"隱含假設(shè)"等問題。針對這一痛點(diǎn),DeepSeek創(chuàng)新性地提出"自我驗(yàn)證"訓(xùn)練框架,通過構(gòu)建生成器-驗(yàn)證器協(xié)同進(jìn)化系統(tǒng),使模型具備自主審查推理過程的能力。
該系統(tǒng)包含三個(gè)核心組件:首先訓(xùn)練具備專業(yè)評審能力的驗(yàn)證器,能對證明過程進(jìn)行三級評分(1分完美、0.5分存在瑕疵、0分錯(cuò)誤)并撰寫詳細(xì)評語;其次引入元驗(yàn)證機(jī)制,通過雙重檢查確保評分合理性;最后開發(fā)具備自省能力的生成器,在輸出答案時(shí)必須同步進(jìn)行自我評估,誠實(shí)指出潛在錯(cuò)誤。這種設(shè)計(jì)形成閉環(huán)訓(xùn)練體系,使模型在不斷自我修正中提升推理嚴(yán)謹(jǐn)性。
實(shí)驗(yàn)數(shù)據(jù)顯示,DeepSeek-Math-V2在多項(xiàng)權(quán)威基準(zhǔn)測試中表現(xiàn)卓越。在包含60道證明題的IMO-ProofBench測試集中,基礎(chǔ)子集得分接近99%,顯著領(lǐng)先其他模型;在高級子集雖略遜于Gemini DeepThink,但已達(dá)到IMO金牌選手水平。更令人矚目的是,該模型在Putnam 2024數(shù)學(xué)競賽測試中取得118/120的接近滿分成績,刷新了AI數(shù)學(xué)解題紀(jì)錄。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)突破傳統(tǒng)強(qiáng)化學(xué)習(xí)框架,不再依賴答案正確性作為唯一獎勵(lì)信號。通過構(gòu)建驗(yàn)證器與生成器的協(xié)同進(jìn)化機(jī)制,模型在訓(xùn)練過程中自動生成高難度樣本,形成"以戰(zhàn)養(yǎng)戰(zhàn)"的持續(xù)提升模式。這種創(chuàng)新方法不僅減少了對人工標(biāo)注數(shù)據(jù)的依賴,更有效抑制了大模型的幻覺問題,使推理過程具備可解釋性。
該成果在學(xué)術(shù)界引發(fā)廣泛關(guān)注。專家指出,DeepSeek-Math-V2的自我驗(yàn)證框架為AI數(shù)學(xué)推理開辟了新方向,其過程導(dǎo)向的訓(xùn)練方法有望推廣至物理、計(jì)算機(jī)科學(xué)等需要嚴(yán)格證明的領(lǐng)域。目前研究團(tuán)隊(duì)已公開模型代碼和論文,供全球研究者共同探索可驗(yàn)證推理的更多可能性。











