在人工智能大模型競爭愈發(fā)激烈的當(dāng)下,DeepSeek于近日推出兩款全新模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale,引發(fā)行業(yè)高度關(guān)注。這兩款模型同步發(fā)布的技術(shù)論文顯示,其推理能力已達(dá)到全球領(lǐng)先水平,為當(dāng)前大模型領(lǐng)域注入新的活力。
DeepSeek-V3.2作為常規(guī)版本,在網(wǎng)頁端、移動應(yīng)用及API接口均已完成更新。該模型著重平衡推理能力與輸出長度,旨在滿足日常使用需求。在基準(zhǔn)測試中,V3.2與GPT-5、Claude 4.5等頭部模型在不同領(lǐng)域互有勝負(fù),僅Gemini 3 Pro在綜合表現(xiàn)上略占優(yōu)勢。相較于國產(chǎn)大模型廠商月之暗面近期發(fā)布的Kimi-K2-Thinking,V3.2在輸出長度上顯著縮短,有效降低了計(jì)算資源消耗與用戶等待時間。在智能體評測中,V3.2得分超越Kimi-K2-Thinking及MiniMax M2,成為當(dāng)前開源模型中的佼佼者,其性能已接近閉源模型的巔峰水平。
V3.2在實(shí)際應(yīng)用場景中的表現(xiàn)尤為突出。在旅游攻略咨詢等具體任務(wù)中,該模型通過深度思考與工具調(diào)用(如網(wǎng)站爬蟲、搜索引擎等),生成了詳盡且精準(zhǔn)的解決方案。其更新的API首次支持在思考模式下調(diào)用工具,大幅提升了答案的豐富度與適用性。值得注意的是,DeepSeek強(qiáng)調(diào),V3.2未針對測試集工具進(jìn)行特殊訓(xùn)練,這一特點(diǎn)使其在真實(shí)場景中展現(xiàn)出更強(qiáng)的泛化能力。
針對當(dāng)前大模型普遍存在的“高智商低情商”問題——即在測試中得分優(yōu)異卻難以處理用戶簡單需求,DeepSeek通過技術(shù)優(yōu)化尋求突破。V3.2在訓(xùn)練、整合及應(yīng)用層面進(jìn)行全方位改進(jìn),引入DSA(DeepSeek稀疏注意力機(jī)制),在長文本場景中降低計(jì)算復(fù)雜度,同時保持模型性能。團(tuán)隊(duì)開發(fā)了新的合成流程,系統(tǒng)性生成大規(guī)模訓(xùn)練數(shù)據(jù),顯著提升了模型在復(fù)雜交互環(huán)境中的泛化與指令跟隨能力。這些優(yōu)化使V3.2成為首個將思考融入工具使用的模型,進(jìn)一步增強(qiáng)了其適應(yīng)多樣化任務(wù)的能力。
與V3.2的平衡性定位不同,V3.2-Speciale作為“長思考特種部隊(duì)”,致力于將開源模型的推理能力推向極致。該模型整合了上周發(fā)布的數(shù)學(xué)大模型DeepSeek-Math-V2的定理證明能力。Math-V2此前在國際數(shù)學(xué)奧林匹克競賽及中國數(shù)學(xué)奧林匹克競賽中均獲金牌級成績,并在IMO-Proof Bench基準(zhǔn)測試中超越Gemini 3。通過自驗(yàn)證機(jī)制,Math-V2突破了傳統(tǒng)AI在深度推理中的局限,形成了更穩(wěn)定、實(shí)用的定理證明能力。V3.2-Speciale繼承這一優(yōu)勢,在主流推理基準(zhǔn)測試中取得與Gemini 3.0 Pro相當(dāng)?shù)某煽儭H欢捎谄涓咄评韽?qiáng)度需消耗大量計(jì)算資源,目前該模型僅支持研究用途,暫不支持工具調(diào)用及日常對話、寫作功能。








