人工智能領(lǐng)域迎來重要進(jìn)展,DeepSeek近日發(fā)布兩款全新模型——DeepSeek-V3.2及其長思考增強(qiáng)版DeepSeek-V3.2-Speciale。這兩款模型在推理、智能體等多項(xiàng)基準(zhǔn)測試中表現(xiàn)優(yōu)異,成為當(dāng)前開源模型中性能最強(qiáng)的代表,部分指標(biāo)甚至達(dá)到國際領(lǐng)先水平。
標(biāo)準(zhǔn)版DeepSeek-V3.2在公開推理類測試中展現(xiàn)出強(qiáng)大實(shí)力,其表現(xiàn)已接近GPT-5,僅略遜于Gemini-3.0-Pro。與Kimi-K2-Thinking相比,V3.2的輸出長度顯著縮短,計(jì)算開銷和用戶等待時間均大幅降低。該模型還首次將思考模式融入工具使用,支持思考與非思考兩種工具調(diào)用方式,在智能體評測中達(dá)到開源模型最高水平,且未針對測試工具進(jìn)行特殊訓(xùn)練,顯示出較強(qiáng)的泛化能力。
長思考增強(qiáng)版DeepSeek-V3.2-Speciale結(jié)合了DeepSeek-Math-V2的定理證明能力,在指令跟隨、數(shù)學(xué)證明和邏輯驗(yàn)證方面表現(xiàn)突出。在主流推理基準(zhǔn)測試中,其性能可與Gemini-3.0-Pro媲美。該版本在國際頂級學(xué)術(shù)競賽中取得突破性成績,斬獲IMO 2025、CMO 2025、ICPC World Finals 2025及IOI 2025金牌,其中ICPC與IOI成績分別達(dá)到人類選手第二名和第十名的水平。不過,由于該版本消耗的Tokens更多、成本較高,目前僅供研究使用,不支持工具調(diào)用,也未針對日常對話和寫作任務(wù)進(jìn)行優(yōu)化。
針對開源模型與專有模型差距擴(kuò)大的問題,DeepSeek團(tuán)隊(duì)分析認(rèn)為,主要限制因素包括:原始注意力機(jī)制在長序列處理效率上的不足、訓(xùn)練后階段算力投入不足,以及智能體應(yīng)用場景中泛化能力和指令遵循能力的滯后。為解決這些問題,DeepSeek提出三項(xiàng)創(chuàng)新方案:引入高效的稀疏注意力機(jī)制DSA,開發(fā)可擴(kuò)展的強(qiáng)化學(xué)習(xí)協(xié)議,以及設(shè)計(jì)促進(jìn)工具使用場景泛化推理的新流程。
DSA機(jī)制通過閃電索引器快速篩選重要token,僅對關(guān)鍵token進(jìn)行詳細(xì)分析,將注意力復(fù)雜度從平方級降低為近似線性增長。這種設(shè)計(jì)在保持模型質(zhì)量的同時,顯著提升了長序列推理效率。在H800 GPU上的測試顯示,DeepSeek-V3.2實(shí)現(xiàn)了顯著的端到端加速,在短上下文場景下也通過專門掩碼模式進(jìn)一步提升了效率。
在后訓(xùn)練階段,DeepSeek采用專家蒸餾與混合式強(qiáng)化學(xué)習(xí)相結(jié)合的方法。團(tuán)隊(duì)從同一基礎(chǔ)檢查點(diǎn)出發(fā),為數(shù)學(xué)、編程、邏輯推理等六類專業(yè)任務(wù)訓(xùn)練專屬模型,再將這些專家的能力匯聚到統(tǒng)一大模型中。混合式強(qiáng)化學(xué)習(xí)則采用GRPO算法,將推理、智能體與人類對齊的訓(xùn)練整合到同一階段,避免災(zāi)難性遺忘。為解決思考模式與工具使用的結(jié)合問題,團(tuán)隊(duì)設(shè)計(jì)了新的上下文管理機(jī)制,確保模型在多輪工具調(diào)用中保持推理連續(xù)性。
目前,DeepSeek官方網(wǎng)頁端、App和API均已更新為DeepSeek-V3.2正式版,Speciale版本則以臨時API服務(wù)形式開放供社區(qū)評測與研究。兩款模型的技術(shù)報告和開源代碼已在模型庫平臺發(fā)布,供研究人員下載使用。
盡管DeepSeek-V3.2在計(jì)算效率與推理能力之間取得了平衡,但團(tuán)隊(duì)也承認(rèn)其存在局限性。由于整體訓(xùn)練計(jì)算量較少,該模型的世界知識廣度仍落后于領(lǐng)先專有模型;在token效率方面,通常需要更長的生成軌跡才能達(dá)到相似輸出質(zhì)量;在解決復(fù)雜任務(wù)方面,與前沿模型相比仍有提升空間。這些挑戰(zhàn)將成為未來迭代優(yōu)化的重點(diǎn)方向。











