人工智能領域迎來重要突破,一款名為DeepSeekMath-V2的數學推理模型正式開源。該模型在國際頂級數學競賽中展現出驚人實力,不僅在2025年國際數學奧林匹克競賽(IMO)和2024年中國數學奧林匹克競賽(CMO)中達到金牌標準,更在2024年普特南大學生數學競賽中取得118分的接近滿分成績,遠超人類選手最高分90分。
在直接對比測試中,DeepSeekMath-V2以顯著優勢擊敗谷歌的IMO金獎模型DeepThink。實驗數據顯示,該模型在代數、幾何、數論、組合數學和不等式等所有CNML級別問題類別中,均超越GPT-5-Thinking-High和Gemini 2.5-Pro等主流模型,展現出全面的定理證明能力。特別是在處理2024年IMO備選題時,經過自我優化后的證明質量顯著提升,驗證分數較平均水平提高37%。
研發團隊突破傳統數學推理框架,創新性地將證明驗證能力融入大型語言模型。通過構建包含17503道競賽題目的強化學習數據集,結合專家評分和模型生成的候選證明,開發出獨特的雙獎勵訓練機制。該機制包含格式獎勵和分數獎勵兩個組件,確保模型既能遵循數學證明的規范格式,又能準確評估證明的邏輯嚴謹性。為防止驗證器虛構問題獲取獎勵,研究引入元驗證機制,形成二次評估閉環。
模型采用生成器-驗證器協同架構,驗證器負責逐步檢查證明過程,生成器則根據反饋修正錯誤。這種自我迭代機制使模型在處理2025年IMO六道賽題時成功解決五道,另一道獲得部分分數;在CMO競賽中完成四道完整解答。特別值得注意的是,對于未完全解決的問題,模型能精準定位證明中的關鍵缺陷,而完全解決的題目則通過全部64次驗證測試。
實際測試顯示,該模型能正確處理從基礎到奧賽級別的數學證明。當被要求證明"根號2為無理數"時,模型迅速給出完整邏輯鏈條;面對"奇數和整數哪個多"的證明題,模型提供的解答過程清晰易懂。這些案例表明,模型不僅具備專業數學能力,還能將復雜邏輯轉化為可理解的表達形式。
盡管在頂級數學難題上仍面臨挑戰,但研究證實大型語言模型能夠培養有意義的自我評估能力。通過擴大驗證和生成計算規模,模型已能解決需要人類競爭者數小時思考的復雜問題。這種可自我驗證的數學推理系統,為開發更強大的AI數學工具開辟了新路徑,特別是在處理需要嚴謹推導而非簡單答案的定理證明任務中展現出獨特優勢。












