滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

開源最強！“拳打GPT 5”，“腳踢Gemini-3.0”，DeepSeek V3.2為何提升這么多？

時間：2025-12-04 01:10:31 來源：華爾街見聞編輯：快訊 IP：北京 發表評論無障礙通道

在大模型賽道逐漸從“參數競賽”走向“能力競賽”的當下，一個顯著的變化正在發生：開源模型開始在越來越多關鍵能力維度上逼近、甚至沖擊頂級閉源模型。

12月1日，DeepSeek同步發布兩款正式版模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale，前者在推理測試中達到GPT-5水平，僅略低于Gemini-3.0-Pro，而后者在IMO 2025等四項國際頂級競賽中斬獲金牌。

V3.2在工具調用能力上達到當前開源模型最高水平，大幅縮小了開源模型與閉源模型的差距。

據官方介紹，V3.2是DeepSeek首個將思考融入工具使用的模型，在“思考模式”下仍然支持工具調用。該公司通過大規模Agent訓練數據合成方法，構造了1800多個環境、85000多條復雜指令的強化學習任務，大幅提升了模型在智能體評測中的表現。

V3.2證明了一件事：通過正確的架構+數據策略+工具融合設計，開源模型完全有能力成為世界級選手。Deepseek研究員茍志斌在社交平臺X上發帖稱：

如果說Gemini-3證明了持續擴大預訓練規模依然有效，那么DeepSeek-V3.2-Speciale則證明了在超大上下文下進行強化學習擴展是可行的。

我們花了一年時間把DeepSeek-V3推到極限。得到的經驗是：后訓練的瓶頸，是靠優化方法和數據而不是靠等待一個更強的基礎模型來解決的。

DSA突破性能瓶頸，“思考+工具調用”策略帶來質的飛躍

這次的核心飛躍，來自兩大底層創新。

第一個是DeepSeek Sparse Attention（DSA）稀疏注意力機制，DeepSeek兩個月前在實驗版（V3.2-Exp）中引入的一項關鍵結構。

該稀疏注意力機制有效解決了傳統注意力機制在長序列處理中的效率瓶頸，將注意力復雜度從O(L2)降低至O(Lk)，同時保持模型性能。

在架構層面，DSA采用閃電索引器和細粒度Token選擇機制兩大組件。閃電索引器計算查詢Token與歷史Token之間的索引分數，決定哪些Token被選中；細粒度Token選擇機制則基于索引分數檢索對應的鍵值條目。該機制基于MLA的MQA模式實現，確保計算效率的同時維持模型表現。

在大量用戶對比測試中發現：V3.2-Exp在任何場景中都沒有明顯弱于 V3.1，稀疏注意力不僅沒有損失能力，反而大幅提升了效率和響應質量。這意味著，模型可以：看得更“遠”、想得更“深”、卻用更少的計算資源。

第二，DeepSeek-V3.2提升顯著的關鍵在于訓練策略的根本性改變。以往版本采用"直接調工具"的簡單模式，而V3.2創新性地實現了"思考+調工具"(Thinking in Tool-use)的融合機制。

DeepSeek-V3.2 成為首個在“思考模式”下仍然支持工具調用的模型。也就是說，它不再是一看到問題馬上用工具，而是變成：先分析、再規劃、再調用工具、再驗證、再修正。

這種表現更接近人類的“思考-行動-反思”閉環，為復雜任務（如搜索、寫代碼、修 Bug、規劃項目）帶來了指數級的能力上升。

數據策略的改變：1800+環境+8.5萬條復雜指令

至于模型為什么突然變強這么多？本質上，是訓練策略徹底升級了。

DeepSeek搭建了一條全新的大規模數據合成流水線，生成1800多個環境和85000多條高難度指令，專門用于強化學習。

這種“冷啟動+大規模合成數據RL”的訓練方法，讓模型在復雜任務如代碼修復、搜索等場景中的泛化能力大幅提升。通過構造“難解答、易驗證”的強化學習任務，模型學會了在推理過程中有機融合工具調用。

這種方式的核心價值在于：不再依賴真實人類標注，而是構造“極限題庫”錘煉模型能力。

結果也非常清晰：在代碼修復、搜索路徑規劃、多步驟任務中，V3.2 的泛化能力大幅領先過往版本，甚至接近閉源商業模型。

在思考上下文管理方面，V3.2采用專門針對工具調用場景的優化策略。歷史推理內容僅在新用戶消息引入時被丟棄，而在工具相關消息(如工具輸出)添加時保持推理內容，避免了模型為每次工具調用重復推理整個問題的低效行為。

強化學習規模化顯著增強模型能力，后訓練算力超過預訓練的10%

DeepSeek-V3.2采用可擴展的強化學習框架，后訓練計算預算超過預訓練成本的10%，這一資源投入為高級能力的釋放奠定了基礎。

該公司在GRPO(Group Relative Policy Optimization)算法基礎上引入多項穩定性改進，包括無偏KL估計、離策略序列掩碼、保持路由等機制。

在專家蒸餾階段，該公司為每個任務領域開發專門的模型，涵蓋數學、編程、通用邏輯推理、智能體任務等六個專業領域，均支持思考和非思考模式。這些專家模型通過大規模強化學習訓練，隨后用于產生領域特定數據供最終檢查點使用。

混合RL訓練將推理、智能體和人類對齊訓練合并為單一RL階段，有效平衡了不同領域的性能表現，同時規避了多階段訓練常見的災難性遺忘問題。對于推理和智能體任務，采用基于規則的結果獎勵、長度懲罰和語言一致性獎勵；對于通用任務，則使用生成式獎勵模型進行評估。

大模型“權力結構”正在改變！

在與海外幾大模型的對比中，DeepSeek-V3.2展現出顯著的性能優勢。在推理能力方面，V3.2在AIME 2025測試中達到93.1%的通過率，接近GPT-5的94.6%和Gemini-3.0-Pro的95.0%。在HMMT 2025測試中，V3.2得分92.5%，與頂級閉源模型差距進一步縮小。

在智能體能力評測中，V3.2的表現尤為突出。在代碼智能體任務SWE-Verified中獲得73.1%的解決率，在Terminal Bench 2.0中達到46.4%的準確率，顯著超越現有開源模型。在搜索智能體評估BrowseComp中，通過上下文管理技術，V3.2從51.4%提升至67.6%的通過率。

在工具使用基準測試中，V3.2在τ2-Bench中獲得80.3%的通過率，在MCP-Universe中達到45.9%的成功率。值得注意的是，V3.2并未針對這些測試集的工具進行特殊訓練，顯示出強大的泛化能力。相比之下，同期開源模型如MiniMax-M2-Thinking在多項測試中的表現明顯落后。

DeepSeek-V3.2 的發布背后，其實是一個更大的信號：閉源模型的絕對技術壟斷正在被打破，開源模型開始具備一線競爭力。

這具有三層意義：

對開發者：成本更低、可定制性更強的高性能模型已出現；對企業：不必再完全依賴海外 API，也能構建強大 AI 系統；對產業：大模型軍備競賽從“誰參數大”，升級為“誰方法強”。

更多>同類資訊

調查顯示：九成企業2026年將加大AI投入 AI成IT預算擴張核心動力

12-14

奧爾特曼十年回溯：OpenAI突破重重挑戰，AGI愿景正照進現實

12-14

宇樹科技首發人形機器人“App Store”，可一鍵上傳下載動作模型

12-14

奧爾特曼回顧OpenAI十年之路：成就超預期

12-14

讓機器人跳“扭扭舞”、模仿“李小龍” 宇樹科技新發布來了

12-14

豆包手機助手回應爭議：無法「偷看」你的銀行界面

12-14

2024年我國AI核心產業規模超9000億，2025年有望突破1.2萬億元

12-14

“數字人”擬人化浪潮下：筑牢倫理防線，守護人類主導的數字未來

12-14

豆包手機助手就爭議發聲：嚴格遵循安全規則無法截取銀行敏感頁面

12-14

寧德電子郵箱公司：穩定服務、安全護航，攜手合作共探未來新發展

加密傳輸確保郵件內容在傳輸過程中不被竊取，反垃圾郵件系統能有效過濾垃圾郵件和惡意軟件，減少用戶受到騷擾的風險。如果郵件發送失敗，可能是由于附件過大或收件人地址錯誤，用戶可以通過檢查文件大小和地址格式來排除故障…

12-14

DDR5漲價成阻礙？Valve Steam Machine與《半衰期3》或雙雙延期上市

12-14

宇樹科技上線機器人應用商店：共享動作模型，助力開發者高效開發

今日，宇樹科技宣布推出宇樹應用商店，這是專為機器人打造的全球功能共享中心，用戶可以將訓練好的舞蹈、武術、干活等模型一鍵上傳分享，也可以下載其他開發者開發的動作部署到機器人上。據介紹，平臺匯集了由真實機器人采…

12-14

宇樹人形機器人“App Store”上線，為行業數據流動與C端探索添新動力

12-14

離開小冰后，李笛攜“群體智能”新理念再戰大模型賽道

但就在奇績路演的幾天前，李笛非常激昂地對虎嗅談及了他做大模型的夢想、初衷，以及在他設想中，大模型應該是什么樣子。這是一個在當前國內大模型語境下仍然相對陌生的概念：真正能解決復雜問題的，不是一個參數更大的模…

12-14

AI賦能不動產管理：“靈石3.0”推動全國二十城樓宇智慧低碳升級

在上海國際傳媒港，一臺臺巡檢機器人、清潔機器人、機器狗等智能機器人正在樓宇間自由穿梭，各監控攝像頭一旦發現垃圾亂扔、車輛違停、識別牌脫落、明火等情況，“靈石”系統就會自動完成“視頻+工單”的采集和派工，機器…

12-14

點擊查看更多 +

全站最新

全新寶馬X5：顏值動力雙在線，但養車成本與使用體驗需細思量

大電池增混車型崛起：兼顧純電優勢與長途便利，成用戶新選擇？

鴻蒙智行問界M9：連續四月登頂插電混動車保值率榜首，市場表現亮眼

固態電池：從實驗室到產業化的跨越，是希望曙光還是漫長征途？

大V發聲挺小米：村支書模仿帶貨引爭議，莫為銷量損企業聲譽

浦東曹路新盤建發聯發青云上，95-116㎡精裝三房，低密宜居，預約看房享優惠

熱門內容

本欄最新

魔都邂逅嵐圖泰山：東方韻味與硬核實力，重塑華系旗艦SUV價值標桿

嵐圖追光L插混轎車上市，27.99萬起售，1400公里續航配華為智駕系統

2025互聯網職場AI浪潮下：開發產品運維的技能升級與長遠發展攻略

星途ET5云貴上市：以五境實力開啟智慧出行，重塑15萬級智電SUV新標桿

2026年3月車市盛宴！四款大五座SUV即將登場，誰能脫穎而出？

從碰撞到環境：吉利全域安全中心如何以系統協同守護出行安全？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

開源最強！“拳打GPT 5”，“腳踢Gemini-3.0”，DeepSeek V3.2為何提升這么多？

日本精品一区二区三区高清久久