人工智能領域迎來新突破,DeepSeek團隊在開源社區(qū)Hugging Face正式發(fā)布了一款名為DeepSeek-Math-V2的數(shù)學推理模型。該模型以2360億參數(shù)的規(guī)模亮相,但通過創(chuàng)新的MoE(混合專家)架構設計,實際活躍參數(shù)僅210億,卻實現(xiàn)了128K超長上下文處理能力。開源協(xié)議采用Apache2.0,徹底解除商業(yè)使用限制,發(fā)布首日即因全球開發(fā)者瘋狂下載導致服務器帶寬達到峰值。
在數(shù)學能力測試中,這款模型展現(xiàn)出驚人實力。零樣本思維鏈(CoT)模式下,MATH基準測試得分達到75.7%,與GPT-4o的76.6%形成直接對標;在美國數(shù)學邀請賽(AIME)2024年的30道題目中,成功解答4道,表現(xiàn)優(yōu)于Gemini1.5Pro和Claude-3-Opus;在Math Odyssey挑戰(zhàn)賽中以53.7%的準確率躋身全球頂尖模型行列。這些成績的取得,得益于其獨創(chuàng)的"自驗證雙引擎"機制——生成器(Generator)負責初步解答,驗證器(Verifier)進行逐行校驗,通過最多16輪的迭代修正和多數(shù)投票機制,配合元驗證器有效抑制模型幻覺現(xiàn)象。
訓練數(shù)據(jù)方面,研發(fā)團隊構建了包含1000億token的龐大語料庫,涵蓋學術論文、數(shù)學競賽真題以及合成訓練數(shù)據(jù)。特別引入的GRPO強化學習框架,使模型能夠更好地對齊人類偏好。這種數(shù)據(jù)構建策略帶來意外收獲:得益于代碼與數(shù)學混合訓練的獨特設計,模型在編程任務中同樣表現(xiàn)卓越——Humaneval測試集準確率達90.2%,MBPP測試集76.2%,更在SWEBench基準測試中首次實現(xiàn)開源模型突破10%的里程碑,直接比肩GPT-4-Turbo和Claude3Opus等商業(yè)閉源模型。
技術實現(xiàn)層面,該模型對硬件資源的需求顯著降低。通過優(yōu)化計算架構,僅需80GB顯存的多GPU環(huán)境即可完成推理部署。目前完整模型權重已全面開放下載,開發(fā)者通過transformers庫即可實現(xiàn)一鍵加載。開源社區(qū)正掀起復現(xiàn)熱潮,多個技術團隊已成功驗證模型性能。這款國產(chǎn)開源模型的誕生,標志著在數(shù)學推理這個關鍵領域,開源生態(tài)正在突破傳統(tǒng)商業(yè)巨頭的技術壁壘,為全球AI發(fā)展注入新的活力。











