在2025年世界互聯網大會?烏鎮峰會前沿人工智能模型論壇上,螞蟻集團平臺技術事業群總裁駱驥透露,該集團已建成萬卡規模的國產算力集群。該集群不僅適配自主研發模型及主流開源框架,訓練任務穩定性突破98%,其訓練與推理性能更達到國際先進水平,目前正全面支撐安全風控領域的大模型應用。
今年3月,螞蟻集團Ling團隊在Arxiv預印本平臺發布技術論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數混合專家LING大模型》,宣布推出百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus)兩款混合專家(MoE)大語言模型。研究團隊通過架構創新與訓練策略優化,首次實現3000億參數大模型在國產GPU設備上的高效訓練,其性能表現與使用英偉達高端芯片的同規模模型持平。
傳統MoE模型訓練高度依賴英偉達H100/H800等高性能GPU,不僅硬件成本高昂,更面臨全球芯片短缺的困境。螞蟻團隊提出的"無高級GPU"訓練方案,通過動態參數分配技術實現計算資源的高效利用,混合精度調度策略則顯著降低內存占用。在異常處理方面,自適應容錯恢復系統將中斷響應時間壓縮至行業平均水平的三分之一。
該團隊構建的自動化評測框架使模型驗證周期縮短超50%,基于知識圖譜的指令微調技術更將復雜任務執行精度提升18%。實驗數據顯示,采用國產GPU訓練的3000億參數MoE模型,在推理速度、任務完成率等核心指標上,已達到使用英偉達全系芯片訓練的稠密模型及MoE模型水準,為資源受限場景下的模型部署開辟新路徑。
這套創新訓練體系包含四大核心技術突破:架構層面采用動態專家激活機制,使單卡有效計算量提升40%;訓練策略引入漸進式負載均衡算法,解決MoE模型常見的專家冷啟動問題;異常處理系統通過預測性檢查點機制,將訓練中斷恢復時間從小時級壓縮至分鐘級;評估體系則開發出多維度自動化評測工具,實現模型性能的實時動態監測。











