人工智能領(lǐng)域迎來重要進(jìn)展,DeepSeek在ChatGPT發(fā)布三周年之際,正式推出兩款全新模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale。這兩款模型分別針對(duì)不同場(chǎng)景需求設(shè)計(jì),展現(xiàn)出顯著的技術(shù)突破。
DeepSeek-V3.2定位為平衡型實(shí)用模型,在推理能力與輸出效率之間實(shí)現(xiàn)優(yōu)化。該模型在真實(shí)場(chǎng)景工具調(diào)用、通用Agent任務(wù)及日常問答中表現(xiàn)突出,其推理性能已達(dá)到GPT-5水平,雖略遜于Gemini-3.0-Pro,但在開源模型中處于領(lǐng)先地位。技術(shù)團(tuán)隊(duì)通過引入DSA(DeepSeek Sparse Attention)稀疏注意力機(jī)制,將計(jì)算復(fù)雜度從傳統(tǒng)O(L2)降至O(L·k),顯著提升長(zhǎng)文本處理效率。在128k長(zhǎng)度序列測(cè)試中,預(yù)填充階段成本降低至0.2美元/百萬token,解碼階段成本降至0.8美元/百萬token。
該模型在Agent任務(wù)領(lǐng)域取得突破性進(jìn)展。通過構(gòu)建包含1827個(gè)任務(wù)環(huán)境與85000個(gè)復(fù)雜指令的訓(xùn)練數(shù)據(jù)集,模型展現(xiàn)出強(qiáng)大的泛化能力。在旅行規(guī)劃等復(fù)雜邏輯任務(wù)中,模型能自動(dòng)處理城市重復(fù)性、預(yù)算分配等約束條件。代碼Agent方面,團(tuán)隊(duì)基于GitHub數(shù)百萬issue-PR對(duì)構(gòu)建了可執(zhí)行環(huán)境,覆蓋Python、Java等主流編程語言。評(píng)測(cè)數(shù)據(jù)顯示,DeepSeek-V3.2在SWE-Verified基準(zhǔn)測(cè)試中取得73.1%解決率,Terminal Bench 2.0準(zhǔn)確率達(dá)46.4%,工具使用能力接近閉源模型水平。
強(qiáng)化學(xué)習(xí)訓(xùn)練成為另一技術(shù)亮點(diǎn)。研究團(tuán)隊(duì)投入超過預(yù)訓(xùn)練10%的計(jì)算資源進(jìn)行后訓(xùn)練階段優(yōu)化,開發(fā)出穩(wěn)定擴(kuò)展的RL協(xié)議。通過無偏KL估計(jì)、離線序列掩碼策略及Keep Routing操作等創(chuàng)新,有效解決了訓(xùn)練不穩(wěn)定問題。專家蒸餾策略被應(yīng)用于六個(gè)專業(yè)領(lǐng)域訓(xùn)練,包括數(shù)學(xué)、編程及通用邏輯推理等,最終模型通過領(lǐng)域數(shù)據(jù)融合實(shí)現(xiàn)能力躍升。
DeepSeek-V3.2-Speciale作為長(zhǎng)思考增強(qiáng)版,融合了DeepSeek-Math-V2的定理證明能力。該模型在指令跟隨、數(shù)學(xué)證明及邏輯驗(yàn)證方面表現(xiàn)卓越,成功斬獲IMO 2025、CMO 2025等國際競(jìng)賽金牌,在ICPC世界總決賽中達(dá)到人類選手第二名水平。技術(shù)報(bào)告顯示,Speciale版本在復(fù)雜數(shù)學(xué)推理任務(wù)中顯著優(yōu)于標(biāo)準(zhǔn)版,但因未針對(duì)日常對(duì)話優(yōu)化且不支持工具調(diào)用,目前僅供研究使用,其Token消耗量較標(biāo)準(zhǔn)版增加明顯。
在上下文管理機(jī)制創(chuàng)新方面,新模型改進(jìn)了推理內(nèi)容保留策略。僅當(dāng)引入新用戶消息時(shí)才會(huì)清除歷史推理軌跡,工具調(diào)用記錄與結(jié)果則持續(xù)保留。系統(tǒng)提示設(shè)計(jì)經(jīng)過優(yōu)化,能引導(dǎo)模型在編程競(jìng)賽等場(chǎng)景中自然插入工具調(diào)用指令,并通過特殊標(biāo)簽標(biāo)記推理路徑。這種設(shè)計(jì)使模型在處理多輪對(duì)話時(shí),能更高效地利用上下文信息。
盡管取得顯著進(jìn)展,研究團(tuán)隊(duì)在技術(shù)報(bào)告中坦陳現(xiàn)存局限。受限于訓(xùn)練計(jì)算量,模型的世界知識(shí)廣度仍落后于領(lǐng)先閉源模型,且需要生成更長(zhǎng)軌跡才能達(dá)到同等輸出質(zhì)量。這些挑戰(zhàn)被明確列為后續(xù)優(yōu)化方向,但具體產(chǎn)品迭代計(jì)劃尚未披露。此次發(fā)布標(biāo)志著開源模型在復(fù)雜推理與工具集成領(lǐng)域邁出重要一步,為人工智能應(yīng)用拓展了新的可能性邊界。











