在近期舉辦的智能未來行業峰會上,浙江大學研究員、螞蟻集團技術專家趙俊博提出,擴散架構正成為語言模型領域的新探索方向。與主流自回歸模型不同,擴散架構通過"完形填空"機制實現文本生成,在推理階段可直接修改中間token,無需像自回歸模型那樣重新生成整段內容。這種特性使其在生成速度和計算成本上具備潛在優勢。
研究團隊發布的千億參數規模模型LLaDA 2.0,成為擴散語言模型發展的重要里程碑。該模型采用混合注意力機制,在區塊間保留自回歸約束的同時實現內部并行解碼。實驗數據顯示,在相同計算量條件下,擴散模型所需參數規模比自回歸模型減少30%以上,且能持續吸收訓練數據,突破傳統模型在多個訓練周期后的性能瓶頸。
技術實現層面,研究團隊攻克了多重挑戰。通過設計動態注意力掩碼,模型同時支持全局注意力捕捉長程依賴和因果注意力維持序列連貫性。針對長文本處理,團隊引入幾何加權方法和分塊擴散策略,優化了文本與文檔的注意力計算效率。開源的訓練框架已集成5D并行計算和靈活注意力適配模塊,支持監督微調和直接偏好優化等訓練范式。
實際應用測試中,擴散模型展現出獨特優勢。在代碼生成任務中,其并行解碼特性使模型能同時輸出多個token,類似編程工具的自動補全功能。文學創作測試顯示,模型會先構建文本框架,再通過多輪迭代優化中間內容,這種非線性的生成軌跡與傳統模型形成鮮明對比。視頻演示表明,在全局注意力支持下,擴散模型在語義理解任務上達到更高準確率。
該領域已吸引科技巨頭和初創公司競相布局。谷歌推出的Gemini Diffusion、字節跳動的相關項目,以及美國初創公司Mercury系列均驗證了技術可行性。研究團隊坦言,擴散語言模型在訓練推理層面仍處早期階段,其擴展規律與自回歸模型存在本質差異。當參數規模突破千億后,模型將面臨新的工程挑戰,這需要整個技術社區共同探索解決方案。
目前研究團隊已開放技術報告和模型代碼,并與模型接入平臺合作推出部分API服務。雖然當前模型規模尚未達到主流水平,但開源社區的活躍參與正在加速技術迭代。這種不同于自回歸模型的生成范式,正在為語言處理領域開辟新的技術路徑。











