螞蟻技術研究院近日正式發布新一代離散擴散大語言模型LLaDA2.0系列,同步公開的技術報告顯示,該系列包含160億參數(16B)的MoE架構mini版本和千億參數(100B)的flash版本,首次將擴散模型參數規模突破至百億量級,成為全球首個達到此量級的擴散語言模型。
研究團隊通過創新架構設計,成功解決了擴散模型在參數擴展過程中面臨的穩定性難題。其中100B版本采用混合專家(MoE)架構,在保持模型精度的同時顯著降低計算成本。實驗數據顯示,該模型在代碼生成、數學推理和智能體協作等任務中展現出超越傳統自回歸(AR)模型的性能表現,尤其在結構化數據生成領域形成顯著優勢。
技術突破的核心在于三項創新:Warmup-Stable-Decay(WSD)持續預訓練策略實現與現有AR模型的知識無縫遷移,避免從頭訓練的高昂成本;置信度感知并行訓練(CAP)機制突破傳統監督微調(SFT)的局限;擴散模型版直接偏好優化(DPO)算法在保證生成質量的前提下,充分發揮擴散模型的并行解碼特性。這些技術組合使模型推理速度較AR模型提升2.1倍,在千億參數規模下實現效率與效果的雙重突破。
多維度評估體系驗證了模型實力。在知識理解、數學運算、代碼編寫、邏輯推理及智能體協作等五大核心能力測試中,LLaDA2.0在代碼生成任務上表現尤為突出,其他領域性能與主流開源AR模型持平。研究團隊特別強調,模型在處理復雜邏輯結構和長序列生成任務時展現出獨特優勢,這得益于擴散模型特有的概率采樣機制。
為推動技術普惠,研究團隊已將16B和100B兩個版本的模型權重及完整訓練代碼在Huggingface平臺開源。此舉不僅為學術界提供研究基準,更為工業界應用超大規模擴散模型降低技術門檻。開源內容包括預訓練框架、微調工具鏈及評估指標體系,形成完整的技術生態閉環。










