在人工智能領(lǐng)域,數(shù)學(xué)推理能力的突破一直是備受矚目的焦點(diǎn)。近日,DeepSeek在Hugging Face平臺(tái)悄然開源了一款名為DeepSeek-Math-V2的數(shù)學(xué)模型,這一動(dòng)作迅速引發(fā)了行業(yè)內(nèi)外的廣泛關(guān)注。該模型不僅成為行業(yè)首個(gè)達(dá)到國(guó)際奧林匹克數(shù)學(xué)競(jìng)賽(IMO)金牌水平且開源的模型,更在數(shù)學(xué)推理能力上展現(xiàn)出了卓越的實(shí)力。
根據(jù)同步發(fā)布的技術(shù)論文,DeepSeek-Math-V2在多個(gè)基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異。在IMO-ProofBench基準(zhǔn)測(cè)試中,該模型在Basic子集上的得分接近99%,遠(yuǎn)超其他同類模型。相比之下,谷歌旗下的Gemini DeepThink(IMO Gold)在該子集上的分?jǐn)?shù)為89%,位列第二。不過,在難度更高的Advanced子集上,Math-V2的分?jǐn)?shù)為61.9%,略低于Gemini DeepThink的65.7%。盡管如此,這一成績(jī)依然證明了Math-V2在復(fù)雜數(shù)學(xué)推理任務(wù)中的強(qiáng)大能力。
論文指出,大語言模型在數(shù)學(xué)推理方面已經(jīng)取得了顯著進(jìn)展,但當(dāng)前的研究仍存在一定局限。許多模型以最終答案的正確性作為獎(jiǎng)勵(lì)機(jī)制,然而,正確的答案并不總能保證推理過程的嚴(yán)謹(jǐn)性。尤其是在定理證明等需要嚴(yán)格分步推導(dǎo)的數(shù)學(xué)任務(wù)中,最終答案獎(jiǎng)勵(lì)機(jī)制往往難以適用。為了突破這一瓶頸,DeepSeek團(tuán)隊(duì)提出,自我驗(yàn)證是擴(kuò)展測(cè)試時(shí)間計(jì)算的關(guān)鍵,尤其是對(duì)于那些沒有已知解決方案的開放問題。
基于這一理念,DeepSeek-Math-V2從結(jié)果導(dǎo)向轉(zhuǎn)向了過程導(dǎo)向,專注于提升模型的定理證明能力。與依賴大量數(shù)學(xué)題答案數(shù)據(jù)的傳統(tǒng)模型不同,Math-V2通過教會(huì)AI如何像數(shù)學(xué)家一樣嚴(yán)謹(jǐn)?shù)貙彶樽C明過程,實(shí)現(xiàn)了在沒有人類干預(yù)的情況下持續(xù)提升解決高難度數(shù)學(xué)證明題的能力。這一創(chuàng)新方法不僅提高了模型的推理嚴(yán)謹(jǐn)性,也為其在數(shù)學(xué)領(lǐng)域的進(jìn)一步應(yīng)用奠定了基礎(chǔ)。
論文還提到,Math-V2在IMO 2025和CMO 2024等國(guó)際數(shù)學(xué)競(jìng)賽中取得了金牌級(jí)成績(jī),并在Putnam 2024競(jìng)賽中通過擴(kuò)展測(cè)試計(jì)算實(shí)現(xiàn)了接近滿分的表現(xiàn)(118/120)。這些成績(jī)充分證明了該模型在數(shù)學(xué)推理領(lǐng)域的領(lǐng)先地位。DeepSeek團(tuán)隊(duì)認(rèn)為,盡管仍有許多挑戰(zhàn)需要克服,但可自我驗(yàn)證的數(shù)學(xué)推理是一個(gè)可行的研究方向,有望推動(dòng)更強(qiáng)大的數(shù)學(xué)AI系統(tǒng)的開發(fā)。
DeepSeek此次推出的Math-V2模型不僅在技術(shù)上取得了突破,也在行業(yè)內(nèi)引發(fā)了熱烈討論。海外網(wǎng)友紛紛表示,DeepSeek的回歸令人驚喜,其以顯著優(yōu)勢(shì)擊敗谷歌的IMO Gold獲獎(jiǎng)模型DeepThink更是超出了預(yù)期。有網(wǎng)友猜測(cè),DeepSeek可能還隱藏著更多驚喜,例如編程模型的發(fā)布。畢竟,在行業(yè)頭部廠商紛紛迭代模型的背景下,DeepSeek的旗艦?zāi)P透聜涫芷诖?/p>
近期,AI領(lǐng)域競(jìng)爭(zhēng)愈發(fā)激烈。11月,OpenAI發(fā)布了GPT-5.1,xAI緊隨其后推出Grok 4.1,谷歌也發(fā)布了Gemini 3系列,引發(fā)了AI圈的廣泛關(guān)注。在這樣的背景下,DeepSeek的Math-V2模型無疑為行業(yè)注入了新的活力。盡管外界更關(guān)注其旗艦?zāi)P偷母聞?dòng)態(tài),但Math-V2的推出已經(jīng)證明了DeepSeek在數(shù)學(xué)推理領(lǐng)域的深厚實(shí)力和創(chuàng)新能力。







