螞蟻集團近日宣布,其自主研發的萬億參數強化學習高性能權重交換框架Awex正式開源。這一框架專為提升訓練推理引擎的權重同步效率設計,能夠有效解決強化學習流程中訓練權重參數向推理模型同步的關鍵技術瓶頸,支持在秒級時間內完成TB級大規模參數的快速交換,顯著降低模型訓練延遲。
作為螞蟻ASystem強化學習系統的核心組件,Awex為百靈萬億模型訓練提供了重要技術支撐。該框架通過優化權重同步機制,實現了訓練與推理環節的高效銜接,尤其在處理超大規模參數時表現出色。螞蟻集團透露,未來將持續開源ASystem的其他核心強化學習組件,逐步構建完整的開源訓練生態體系。
強化學習技術已成為當前大模型后訓練階段的核心驅動力。從ChatGPT采用的RLHF(基于人類反饋的強化學習)方法,到DeepSeek、Claude、Llama等主流模型的后訓練體系,均依賴強化學習技術優化模型輸出,使其更貼合人類偏好并增強推理能力。這項技術正在持續拓展人工智能模型的智能邊界,推動行業向更高水平發展。
今年10月,螞蟻集團已開源兩款萬億參數旗艦模型:非思考型模型Ling-1T與思考型模型Ring-1T。其中,Ring-1T基于自研的Awex框架構建,在數千張GPU集群環境下實現了5至10秒內完成萬億級參數的權重同步。這一突破性進展驗證了Awex框架在超大規模模型訓練中的技術優勢,為行業提供了高性能、低延遲的解決方案。











