滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

DeepSeek V3.2：開源模型新突破，架構創新與策略升級引領能力躍升

時間：2025-12-02 05:44:52 來源：互聯網編輯：快訊 IP：北京 發表評論無障礙通道

在大模型領域，一場從“參數比拼”到“能力較量”的變革正在深入推進，開源模型正以驚人的速度崛起，在多個關鍵能力維度上對頂級閉源模型發起有力沖擊，這一趨勢在近期DeepSeek發布的兩款正式版模型中得到了充分體現。

DeepSeek同步推出的DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩款模型，展現出強大的實力。在推理測試中，V3.2的表現達到GPT-5的水平，與Gemini-3.0-Pro僅有微小差距；而V3.2-Speciale更是在IMO 2025等四項國際頂級競賽中斬獲金牌，成績斐然。在工具調用能力方面，V3.2達到了當前開源模型的最高水準，極大地縮小了與閉源模型之間的差距。

V3.2的出色表現源于其獨特的架構設計和創新的數據策略。它是DeepSeek首個將思考融入工具使用的模型，即便處于“思考模式”，依然支持工具調用。為了實現這一突破，公司運用大規模Agent訓練數據合成方法，精心構造了1800多個環境、85000多條復雜指令的強化學習任務，顯著提升了模型在智能體評測中的表現。Deepseek研究員茍志斌在社交平臺X上表示，Gemini-3證明了持續擴大預訓練規模的有效性，而DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展的可行性。他還提到，將DeepSeek-V3推到極限的過程中，他們得出經驗：后訓練的瓶頸應通過優化方法和數據來解決，而非單純等待更強的基礎模型。

此次V3.2取得核心飛躍，得益于兩大底層創新。其一，是兩個月前在實驗版V3.2-Exp中引入的DeepSeek Sparse Attention（DSA）稀疏注意力機制。該機制有效解決了傳統注意力機制在處理長序列時的效率瓶頸，將注意力復雜度從O(L2)降低至O(Lk)，同時保持了模型性能。在架構上，DSA采用閃電索引器和細粒度Token選擇機制兩大組件。閃電索引器通過計算查詢Token與歷史Token之間的索引分數，篩選出被選中的Token；細粒度Token選擇機制則依據索引分數檢索對應的鍵值條目。該機制基于MLA的MQA模式實現，在確保計算效率的同時維持了模型表現。大量用戶對比測試表明，V3.2-Exp在各種場景中都不遜色于V3.1，稀疏注意力不僅沒有削弱模型能力，反而大幅提升了效率和響應質量，使模型能夠“看得更遠、想得更深”，同時消耗更少的計算資源。

其二，V3.2在訓練策略上實現了根本性改變。以往版本采用“直接調工具”的簡單模式，而V3.2創新性地實現了“思考+調工具”（Thinking in Tool-use）的融合機制，成為首個在“思考模式”下仍支持工具調用的模型。它不再是一遇到問題就立即調用工具，而是先進行分析、規劃，再調用工具，之后進行驗證和修正。這種模式更接近人類的“思考 - 行動 - 反思”閉環，為搜索、寫代碼、修Bug、規劃項目等復雜任務帶來了指數級的能力提升。

在數據策略方面，DeepSeek搭建了一條全新的大規模數據合成流水線，生成1800多個環境和85000多條高難度指令，專門用于強化學習。這種“冷啟動 + 大規模合成數據RL”的訓練方法，使模型在代碼修復、搜索等復雜任務場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務，模型學會了在推理過程中有機融合工具調用。這種方式的核心價值在于，不再依賴真實人類標注，而是通過構造“極限題庫”來錘煉模型能力。結果顯示，在代碼修復、搜索路徑規劃、多步驟任務中，V3.2的泛化能力大幅領先過往版本，甚至接近閉源商業模型。V3.2在思考上下文管理方面采用優化策略，歷史推理內容僅在新用戶消息引入時被丟棄，在工具相關消息添加時保持推理內容，避免了模型為每次工具調用重復推理整個問題的低效行為。

DeepSeek-V3.2采用可擴展的強化學習框架，后訓練計算預算超過預訓練成本的10%，為高級能力的釋放奠定了基礎。公司在GRPO（Group Relative Policy Optimization）算法基礎上引入多項穩定性改進，包括無偏KL估計、離策略序列掩碼、保持路由等機制。在專家蒸餾階段，為數學、編程、通用邏輯推理、智能體任務等六個專業領域開發專門模型，這些模型均支持思考和非思考模式。它們通過大規模強化學習訓練后，用于產生領域特定數據供最終檢查點使用。混合RL訓練將推理、智能體和人類對齊訓練合并為單一RL階段，有效平衡了不同領域的性能表現，同時規避了多階段訓練常見的災難性遺忘問題。對于推理和智能體任務，采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵；對于通用任務，則使用生成式獎勵模型進行評估。

在與海外幾大模型的對比中，DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面，V3.2在AIME 2025測試中達到93.1%的通過率，接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%；在HMMT 2025測試中，V3.2得分92.5%，與頂級閉源模型的差距進一步縮小。在智能體能力評測中，V3.2表現尤為突出。在代碼智能體任務SWE-Verified中獲得73.1%的解決率，在Terminal Bench 2.0中達到46.4%的準確率，顯著超越現有開源模型。在搜索智能體評估BrowseComp中，通過上下文管理技術，V3.2的通過率從51.4%提升至67.6%。在工具使用基準測試中，V3.2在τ2-Bench中獲得80.3%的通過率，在MCP-Universe中達到45.9%的成功率，且未針對這些測試集的工具進行特殊訓練，顯示出強大的泛化能力。相比之下，同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落后。

DeepSeek-V3.2的發布釋放出一個重要信號：閉源模型的絕對技術壟斷正在被打破，開源模型開始具備一線競爭力。這一變化具有三層重要意義：對于開發者而言，成本更低、可定制性更強的高性能模型已經出現；對于企業來說，不必再完全依賴海外API，也能構建強大的AI系統；對于產業而言，大模型領域的競爭從“參數規模競爭”升級為“方法創新競爭”。而DeepSeek，正站在這一變革的前沿位置。

更多>同類資訊

英偉達推出Nemotron 3系列開放模型

12-16

商湯科技發布AI辦公智能體“小浣熊3.0” 一鍵生成高質量PPT

12-16

?英偉達雙線出擊：收購Slurm強化AI基建，發布Nemotron3 開源模型家族押注智能體未來

12-16

Canva 可畫向中國市場推出對話式 AI 助手，簡化設計流程

12-16

ChatGPT 新增分支聊天功能：多線程對話輕松實現

12-16

?Nvidia 收購 SchedMD 并發布新一代開放 AI 模型，進一步布局開源生態

12-16

海外醫療AI平臺OpenEvidence再獲2.5億美元融資估值飆升至120億美元

12-16

?日本數據科學家推出“零錯誤”編程語言 Sui，聲稱讓大模型寫代碼準確率達100%

12-16

OpenAI參投Chai Discovery完成13億美元估值融資

12-16

OpenAI首席傳播官將離職

12-16

對話王仲遠：警惕具身智能「偽需求」泡沫

12-16

全球知名激光雷達公司Luminar申請破產保護

12-16

Akamai宣布收購功能即服務公司Fermyon

12-16

科技成長賽道選基指南：低波動“性價比”選手施展如何穩中求勝

12-16

寒武紀擬動用27.78億資本公積補虧減輕歷史負擔助力高質量發展

12-16

點擊查看更多 +

全站最新

李想在理想汽車旗下一公司職位發生變更

中航沈飛海南飛機工程公司登記成立注冊資本1.5億

泉州文旅成立旅游產業公司注冊資本5億

中航沈飛旗下沈陽飛機工業集團增資至97億增幅約56%

青島市政開發建設集團登記成立注冊資本60億

中國保險投資基金等在廈門成立企管合伙企業出資額50億

熱門內容

本欄最新

福特智趣烈馬12月19日上市交付純電增程雙選擇智能配置亮點多

嵐圖泰山山東濟南上市六大維度無短板重塑豪華SUV市場新格局

福特智趣烈馬12月19日上市，大空間高配置，續航與動力表現亮眼

福特智趣烈馬12月19日上市交付，新能源硬派風，露營出行新選擇

極石ADAMAS廣州車展首秀：融合全地形性能與豪華，加速全球化布局

20萬級家用車新選擇！紅旗HS6預售開啟，以硬核實力重塑家庭出行新體驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

DeepSeek V3.2：開源模型新突破，架構創新與策略升級引領能力躍升

日本精品一区二区三区高清久久