在近日舉辦的一場重要開發者大會上,國內GPU企業摩爾線程全面展示了其在全功能GPU領域的最新突破,涵蓋架構創新、集群能力提升以及生態建設等多個維度,引發行業廣泛關注。
此次大會的核心亮點之一,是摩爾線程全新一代GPU架構“花港”的正式發布。據介紹,該架構在計算密度方面實現了50%的提升,效能提升幅度最高可達10倍,并且完整支持從FP4到FP64的全精度計算。尤為值得關注的是,“花港”架構集成了自研的MTLink高速互聯技術,這一技術為構建十萬卡規模以上的集群提供了底層支撐,為未來大規模計算集群的擴展奠定了堅實基礎。
基于“花港”架構,摩爾線程已規劃了兩款針對性芯片產品。其中,“華山”芯片專注于AI訓練與推理一體化,旨在滿足人工智能領域對高性能計算的需求;而“廬山”芯片則瞄準高性能圖形渲染,在圖形性能上實現了數量級的顯著提升。具體而言,“廬山”芯片的AI計算、幾何處理及光線追蹤性能分別提升了64倍、16倍和50倍。這一架構與產品路線的發布,標志著摩爾線程正從單一場景的加速卡產品,向覆蓋AI計算、圖形渲染、科學計算等全場景的“全功能GPU”平臺邁進,既是技術實力的體現,也是應對市場多元需求的戰略布局。
在集群能力方面,摩爾線程首次系統披露了其“夸娥”萬卡智算集群的關鍵工程效率指標,成為國內少數公開萬卡級實際訓練效率的廠商之一。數據顯示,該萬卡集群在訓練稠密大模型時,模型算力利用率(MFU)達到60%;訓練混合專家模型時,MFU為40%;訓練線性擴展效率達95%,有效訓練時間占比超過90%。這些指標,尤其是MFU,是衡量超大規模AI集群實際效能的關鍵因素,直接關系到訓練的總體成本與可行性。在推理側,摩爾線程聯合硅基流動,在DeepSeek R1 671B全量模型上取得性能突破。經優化后,MTT S5000單卡在Prefill階段吞吐量突破4000 tokens/s,Decode階段突破1000 tokens/s,為國產GPU在超大規模模型推理場景樹立了新的性能標桿。
中國工程院院士、清華大學計算機系教授鄭緯民在大會演講中指出,雖然構建國產萬卡乃至十萬卡級別的超大規模智算系統面臨諸多挑戰,但這是產業發展的必然任務。他認為,國產計算顯卡與國外主流產品的性能差距正在逐步縮小,而集群能力的突破對于發展“主權AI”、實現“算力自主”至關重要。
除了硬件與集群的突破,摩爾線程在生態建設方面也邁出了重要步伐。公司宣布其自主統一的軟件架構MUSA已迭代至5.0版本,并計劃逐步開源包括計算加速庫、通信庫及系統管理框架在內的核心組件。鄭緯民院士特別強調了開發者在生態建設中的核心作用,指出國產芯片平臺必須構建友好、易用的開發環境。為此,摩爾線程發布了搭載自研“長江”智能SoC的AI算力本MTT AIBOOK,提供端側50TOPS算力,旨在實現從芯片到開發環境的全棧整合與“開箱即用”。同時,其面向開發者的“摩爾學院”平臺已匯聚近20萬學習者,并通過校企合作覆蓋全國超200所高校,形成了從底層技術開源、到開發工具供給、再到人才早期培養的全鏈路生態建設模式。
在技術融合與前沿探索方面,摩爾線程也展現了前瞻性布局。公司宣布基于“花港”架構實現了硬件級光線追蹤加速,并推出了自研的AI生成式渲染技術MTAGR 1.0,推動渲染技術從“計算”向“生成”范式轉變。摩爾線程已在具身智能、科學智能(AI for Science)、AI for 6G等前沿交叉領域展開布局,發布了具身智能仿真訓練平臺MT Lambda及相應的機器人解決方案,表明其技術路線不僅聚焦于單一的AI算力,更著眼于GPU作為通用計算平臺在未來更廣闊場景中的應用與價值重塑。
摩爾線程此次的全棧技術展示,反映了當前國產高端算力發展的階段性特征:從單點芯片的突破,正逐步進入需要攻克超大規模系統工程、構建繁榮應用生態的新階段。萬卡集群效率的公開,意味著國產算力基礎設施已開始接受大規模、高負荷實際場景的檢驗。而架構的迭代、圖形與AI的融合,以及對科學計算等前沿領域的探索,則展現了企業參與定義下一代計算架構的技術雄心。然而,通往成熟生態的道路依然充滿挑戰,硬件性能的持續提升、軟件棧的深度優化、與國內外主流開發框架及應用的廣泛兼容,以及吸引足夠數量和質量的開發者形成網絡效應,仍是所有國產GPU廠商需要共同面對的課題。









