在首屆MUSA開發者大會上,摩爾線程宣布推出全新GPU架構“花港”,并同步發布首款基于該架構的云端AI加速芯片“華山”。這款芯片專為超大規模AI計算場景設計,可支持十萬卡級集群部署,片間互聯速率突破1314GB/s,通過新一代Scale-up系統實現多協議兼容,包括MTLink 4.0及主流以太網標準,適配多種高速交換設備并支持SHARP網絡優化技術。
技術參數顯示,基于“華山”芯片構建的KUAE萬卡集群浮點運算能力達10 Exa-FLOPS,在主流精度模型訓練中表現優于國際同類產品,大模型訓練效率指標MFU達到60%。集群穩定性方面實現顯著突破,有效訓練時長占比提升至90%,零中斷技術理論可靠性達99%,萬卡規模下訓練線性度保持95%以上,綜合性價比達到H20芯片的1.5倍。
分布式推理性能測試中,采用MTT S5000芯片的PD分離架構集群展現突出優勢。在DeepSeek R1全量模型測試中,Prefill Only場景下單卡吞吐量達到H20的2.5倍,Decode場景下仍保持1.3倍的性能領先。該架構通過優化數據流處理機制,顯著提升了大規模并行計算場景下的資源利用率。
此次發布的“花港”架構采用模塊化設計理念,支持從邊緣計算到數據中心的多場景覆蓋。新一代互聯技術突破傳統拓撲限制,通過動態帶寬分配算法實現計算資源的高效協同。摩爾線程研發團隊表示,該架構在能效比優化方面取得關鍵進展,單位功耗下的計算密度較前代產品提升40%,為AI大模型訓練提供更經濟的解決方案。
行業分析師指出,隨著AI模型參數規模突破萬億級,對計算集群的擴展性和穩定性提出更高要求。摩爾線程此次推出的全棧解決方案,在硬件架構、互聯協議、集群管理三個維度形成技術閉環,其萬卡級部署能力將直接推動自動駕駛、藥物研發等超大規模計算領域的發展進程。目前該系列產品已進入量產階段,首批客戶涵蓋云計算服務商和科研機構。









