摩爾線程在北京舉辦的首屆MUSA開發(fā)者大會上,正式發(fā)布新一代全功能GPU架構(gòu)“花港”,同步展示萬卡級AI訓(xùn)練集群及多項技術(shù)突破。此次技術(shù)升級覆蓋芯片架構(gòu)、集群算力、軟件生態(tài)及圖形渲染等多個維度,標志著國內(nèi)GPU廠商在AI計算領(lǐng)域的技術(shù)布局進入新階段。
新架構(gòu)“花港”實現(xiàn)全精度計算覆蓋,支持從FP4到FP64的完整精度范圍,算力密度較前代提升50%,能效比達到10倍優(yōu)化。基于該架構(gòu),摩爾線程規(guī)劃推出兩款專用芯片:面向AI訓(xùn)練與推理的“華山”系列,以及專注圖形渲染的“廬山”系列。其中,“華山”芯片將重點優(yōu)化大模型訓(xùn)練效率,而“廬山”芯片則集成硬件光線追蹤加速引擎,支持自研的AI生成式渲染技術(shù)。
在集群計算領(lǐng)域,摩爾線程推出“夸娥”萬卡智算集群,宣稱具備全精度通用計算能力。實測數(shù)據(jù)顯示,該集群在稠密模型訓(xùn)練中算力利用率達60%,混合專家模型訓(xùn)練利用率達40%,線性擴展效率保持在95%以上。推理性能方面,與硅基流動合作完成的DeepSeek R1 671B模型測試顯示,單卡Prefill吞吐量突破4000 tokens/s,Decode吞吐量超過1000 tokens/s,刷新國內(nèi)同類產(chǎn)品紀錄。
軟件生態(tài)建設(shè)取得實質(zhì)性進展。MUSA 5.0版本對編程模型、計算庫及編譯器進行深度優(yōu)化,核心計算庫muDNN的GEMM運算與FlashAttention效率均突破98%,集群通信效率達97%。公司宣布將逐步開源計算加速庫與系統(tǒng)管理框架等核心組件,目前已有部分工具鏈開放下載。此舉被視為構(gòu)建國產(chǎn)GPU軟件生態(tài)的關(guān)鍵步驟。
圖形技術(shù)領(lǐng)域?qū)崿F(xiàn)多項突破。新架構(gòu)集成第二代硬件光線追蹤加速單元,支持實時光線追蹤與路徑追蹤混合渲染。自研的AI生成式渲染技術(shù)可實時將低分辨率內(nèi)容升級為8K畫質(zhì),在具身智能仿真訓(xùn)練中實現(xiàn)物理世界與數(shù)字世界的精準映射。大會現(xiàn)場演示的MTLambda仿真平臺,已支持機器人訓(xùn)練的物理引擎與AI算法深度耦合。
端側(cè)設(shè)備布局同步推進。基于“長江”SoC的AI算力本MTT AIBOOK亮相大會,這款便攜設(shè)備集成NPU加速單元,可本地運行70億參數(shù)大模型。面向超大規(guī)模智算中心,摩爾線程提出MTTC256超節(jié)點架構(gòu)設(shè)計,通過高密度硬件集成與動態(tài)能效調(diào)節(jié)技術(shù),單節(jié)點可支持256顆GPU互聯(lián),功耗比優(yōu)化達30%。
行業(yè)觀察人士指出,摩爾線程此次技術(shù)發(fā)布呈現(xiàn)三大特征:架構(gòu)設(shè)計提前量增大,軟件生態(tài)開放程度提升,應(yīng)用場景覆蓋度擴展。從芯片架構(gòu)到集群方案再到端側(cè)設(shè)備的技術(shù)閉環(huán),顯示出其構(gòu)建全棧AI計算平臺的戰(zhàn)略意圖。特別是在訓(xùn)練集群效率與推理性能等關(guān)鍵指標上,已形成對國際主流產(chǎn)品的差異化競爭態(tài)勢。







