滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

DeepSeek-V3.2兩款新模型開源，讓開源模型重回第一梯隊

時間：2025-12-02 14:54:16 來源：TechWeb編輯：快訊 IP：北京 發表評論無障礙通道

12月2日消息，昨日晚間，DeepSeek發布了兩款新模型：DeepSeek-V3.2和DeepSeek-V3.2-Speciale，并開源。DeepSeek-V3.2 達到了 GPT-5 的水平，DeepSeek-V3.2-Speciale在主流推理基準測試上的性能表現媲美 Gemini-3.0-Pro。

在發布的技術論文中，DeepSeek團隊提到，過去幾個月中出現了一個明顯的分化，開源與閉源模型之間的性能差距非但沒有縮小、反而似乎在擴大，限制開源模型在復雜任務中能力的三個關鍵不足。

最新發布和開源的這兩款模型DeepSeek-V3.2和DeepSeek-V3.2-Speciale則是克服了這些不足，成功讓開源模型重回全球大模型第一梯隊。

強化Agent能力，融入思考推理

根據DeepSeek官方介紹：

1、DeepSeek-V3.2 的目標是平衡推理能力與輸出長度，適合日常使用，例如問答場景和通用 Agent 任務場景。

在公開的推理類 Benchmark 測試中，DeepSeek-V3.2 達到了 GPT-5 的水平，僅略低于 Gemini-3.0-Pro；相比 Kimi-K2-Thinking，V3.2 的輸出長度大幅降低，顯著減少了計算開銷與用戶等待時間。

2、DeepSeek-V3.2-Speciale 的目標是將開源模型的推理能力推向極致，探索能力的邊界。

V3.2-Speciale 版本是 DeepSeek-V3.2 的長思考增強版，并結合了 DeepSeek-Math-V2 的定理證明能力。該模型具備出色的指令跟隨能力、嚴謹的數學證明與邏輯驗證能力，在主流推理基準測試上的性能表現媲美 Gemini-3.0-Pro。

V3.2-Speciale 模型成功斬獲 IMO 2025（國際數學奧林匹克）、CMO 2025（中國數學奧林匹克）、ICPC World Finals 2025（國際大學生程序設計競賽全球總決賽）及 IOI 2025（國際信息學奧林匹克）金牌。

在高度復雜任務上，Speciale 模型大幅優于標準版本，但消耗的 Tokens 也顯著更多，成本更高。目前，DeepSeek-V3.2-Speciale 僅供研究使用，不支持工具調用，暫未針對日常對話與寫作任務進行專項優化。

當前官方網頁端、APP 和 API 用戶均可直接體驗 DeepSeek-V3.2。API 用戶可限時調用體驗 DeepSeek-V3.2-Speciale。DeepSeek-V3.2系列模型已經開源，技術報告同期發布。

三大因素拉大開源模型與閉源模型差距

在技術論文引言中，DeepSeek團隊指出，推理模型的發布標志著大型語言模型發展歷程中的一個關鍵時刻，推動了其在可驗證領域整體性能的顯著飛躍。然而，在過去幾個月中出現了一個明顯的分化。雖然開源社區持續取得進展，但閉源專有模型的性能軌跡以明顯更快的速度加速提升。因此，開源與閉源模型之間的性能差距非但沒有縮小，反而似乎在擴大，專有系統在復雜任務中展現出日益優越的能力。

通過分析，DeepSeek團隊識別出限制開源模型在復雜任務中能力的三個關鍵不足。

首先，在架構上，對樸素注意力機制的主要依賴嚴重限制了長序列的效率。這種低效對可擴展部署和有效后訓練都構成了重大障礙。

其次，在資源分配方面，開源模型在后訓練階段的計算投入不足，限制了其在困難任務上的表現。

最后，在 AI Agent方面，與專有模型相比，開源模型在泛化能力和指令遵循能力上表現出明顯滯后，阻礙了其在真實部署中的有效性。

為了應對這些關鍵限制，DeepSeek團隊首先引入了 DSA（DeepSeek 稀疏注意力），一種旨在顯著降低計算復雜度的高效注意力機制。該架構有效解決了效率瓶頸，即使在長上下文場景中也能保持模型性能。

其次，開發了一個穩定且可擴展的強化學習協議，允許在后訓練階段進行顯著的計算擴展。值得注意的是，該框架分配的后訓練計算預算超過了預訓練成本的 10%，從而解鎖了高級能力。

第三，提出了一種新穎的流程，以在工具使用場景中培養可泛化的推理能力。首先，利用 DeepSeek-V3 方法實施冷啟動階段，將推理和工具使用統一在單個軌跡中。隨后，推進到大規模Agent任務合成，生成了超過 1800 個任務導向的環境和 85000 個復雜的提示詞。這些廣泛的合成數據驅動了 RL 過程，顯著增強了模型在智能體上下文中的泛化能力和指令遵循能力。

DeepSeek-V3.2 的關鍵技術突破就包括上述3項：引入 DSA稀疏注意力機制、可擴展的強化學習框架、大規模Agent任務合成流程。

DeepSeek-V3.2 使用與 DeepSeek-V3.2-Exp 完全相同的架構。與 DeepSeek-V3.1 的最后一個版本 DeepSeek-V3.1-Terminus 相比，DeepSeek-V3.2 唯一的架構修改是通過持續訓練引入了DSA 稀疏注意力機制。

DeepSeek-V3.2保持了與 DeepSeek-V3.2-Exp 中相同的后訓練流程，包括專家蒸餾和混合 RL 訓練。

圖注：DeepSeek-V3.1-Terminus 和 DeepSeek-V3.2 在 H800 集群上的推理成本

DeepSeek官方還特意提到：兩個月前，其發布了實驗性的 DeepSeek-V3.2-Exp，并收到了眾多熱心用戶反饋的對比測試結果。目前未發現 V3.2-Exp 在任何特定場景中顯著差于 V3.1-Terminus，這驗證了 DSA 稀疏注意力機制的有效性。

基準測試表現，顯著提升開源模型的Agent能力

最終，DeepSeek-V3.2 在多個推理基準測試中與 Kimi-k2-thinking 和 GPT-5 取得了相似性能，但略遜于 Gemini-3.0-Pro。

值得注意的是，為了推動開源模型在推理領域的邊界，DeepSeek團隊放寬了長度限制，開發了 DeepSeek-V3.2-Speciale。因此，DeepSeek-V3.2-Speciale 實現了與領先閉源模型Gemini-3.0-Pro 的性能持平。

與 K2-Thinking相比，DeepSeek-V3.2 以明顯更少的輸出tokens取得了類似的分數。

DeepSeek-V3.2 顯著提升了開源模型的Agent能力，在長尾Agent任務上表現出卓越的熟練度。DeepSeek-V3.2 成為Agent場景中極具成本效益的替代方案，顯著縮小了開源模型與前沿專有模型的性能差距，同時成本大幅降低。

在代碼Agent評估中，DeepSeek-V3.2 在 SWE-bench Verified 和 Terminal Bench 2.0 上均顯著優于開源 LLM，展示了其在現實世界編碼工作流程中的潛力。

DeepSeek-V3.2 的思考模式也增加了對 Claude Code 的支持，用戶可以通過將模型名改為 deepseek-reasoner，或在 Claude Code CLI 中按 Tab 鍵開啟思考模式進行使用。

在搜索Agent評估中，使用標準的商業搜索 API 評估模型，DeepSeek-V3.2 表現也更優。

在工具使用基準測試上，DeepSeek-V3.2 大幅縮小了與閉源模型之間的性能差距。

本次API更新支持了 DeepSeek-V3.2 思考模式下的工具調用能力。當前在思考模式下，模型能夠經過多輪的思考 + 工具調用，最終給出更詳盡準確的回答。下圖為思考模式下進行工具調用的 API 請求示意圖：

技術報告最后也指出了一些當前研究的局限性，包括，由于總訓練FLOPs較少，DeepSeek-V3.2的世界知識廣度仍落后于領先的閉源模型。在基準測試模型性能時考慮實際計算成本至關重要。尋找串行和并行擴展的最佳組合以最大化效率和可擴展性仍然是團隊未來工作的關鍵方向。

更多>同類資訊

福特智趣烈馬12月19日上市交付純電增程雙選擇智能配置亮點多

12-16

嵐圖泰山山東濟南上市六大維度無短板重塑豪華SUV市場新格局

12-16

福特智趣烈馬12月19日上市，大空間高配置，續航與動力表現亮眼

12-16

福特智趣烈馬12月19日上市交付，新能源硬派風，露營出行新選擇

12-16

極石ADAMAS廣州車展首秀：融合全地形性能與豪華，加速全球化布局

12-16

20萬級家用車新選擇！紅旗HS6預售開啟，以硬核實力重塑家庭出行新體驗

12-16

OpenAI又開源了！僅0.4B，給模型大瘦身

12-16

群核科技，摸著李飛飛過河

12-16

甲骨文AI基建投入加速，租賃承諾三個月增長近150%

12-16

壁仞科技獲赴港上市備案通知書：或將填補港股GPU賽道標的空缺

12-16

?首款“100% AI 生成”游戲《Codex Mortis》引爭議：是技術實驗，還是創意滑坡？

12-16

nova 15系列官宣定檔：超級nova帶感綠配色驚艷亮相

12-15

《大東北》成“人機共創”里程碑：袁婭維以情動人，AI與人類共譜新篇

12-15

英偉達推出Nemotron 3開源模型系列，以創新技術解鎖智能體AI新可能

12-15

OpenAI前CTO攜舊將創業，新公司Thinking Machines Lab產品Tinker接入Kimi K2 Thinking

12-15

點擊查看更多 +

全站最新

嵐圖泰山2200MPa高強鋼：智能時代守住物理安全“硬底線”

福特智趣烈馬正式下線，增程純電雙動力加持，配置豐富亮點多

坦克300極地版：新能源浪潮下燃油越野的實用堅守者

一汽豐田新款卡羅拉12月21日登場尺寸升級智能安全配置再提升

我國首批L3級自動駕駛車型獲準入許可南北車企兩款車型開啟上路試點

中國智能駕駛新突破：首批L3車型“持證上崗”，開啟有條件自動駕駛新篇

熱門內容

本欄最新

嵐圖泰山山東濟南上市六大維度無短板重塑豪華SUV市場新格局

福特智趣烈馬12月19日上市，大空間高配置，續航與動力表現亮眼

福特智趣烈馬12月19日上市交付，新能源硬派風，露營出行新選擇

極石ADAMAS廣州車展首秀：融合全地形性能與豪華，加速全球化布局

20萬級家用車新選擇！紅旗HS6預售開啟，以硬核實力重塑家庭出行新體驗

《大東北》成“人機共創”里程碑：袁婭維以情動人，AI與人類共譜新篇

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

DeepSeek-V3.2兩款新模型開源，讓開源模型重回第一梯隊

日本精品一区二区三区高清久久

DeepSeek-V3.2兩款新模型開源，讓開源模型重回第一梯隊