在國產GPU技術發展的關鍵節點,摩爾線程于首屆MUSA開發者大會上拋出重磅炸彈:不僅公布了全功能GPU技術路線圖,更一口氣推出覆蓋芯片、集群、終端設備的十大核心產品。這場以"全棧自主·生態共贏"為主題的盛會,標志著國產GPU正式進入規模化落地階段。
架構創新成為破局關鍵。新一代"花港"架構實現FP4-FP64全精度覆蓋,算力密度提升50%的同時能效提升10倍。其獨創的MTLink高速互聯技術,支持1314GB/s片間帶寬,為構建十萬卡級智算集群奠定基礎。更值得關注的是,架構內置的AI生成式渲染引擎(AGR)與硬件光追加速模塊,使國產GPU首次具備全流程圖形渲染能力,實時光追性能較前代提升50倍。
硬件矩陣呈現立體化布局。面向AI訓練場景的"華山"芯片,集成新一代異步編程引擎與全精度張量計算單元,在FP8精度下性能超越國際標桿產品;專注圖形渲染的"廬山"芯片,通過UniTE統一渲染架構實現3A游戲性能15倍躍升;智能SoC"長江"芯片則將CPU、GPU、NPU等六大核心模塊集成于單芯片,提供50TOPS異構算力。這些芯片共同構成從數據中心到邊緣設備的完整算力支撐體系。
在集群計算領域,夸娥萬卡智算集群實現重大突破。該集群采用計算與交換一體化設計,實測訓練算力利用率達60%(Dense模型),有效訓練時間占比超90%。更引人注目的是其推理性能:與硅基流動聯合優化的MTT S5000單卡,在DeepSeek R1模型上實現4000 tokens/s的Prefill吞吐與1000 tokens/s的Decode吞吐,刷新國產GPU性能紀錄。現場演示顯示,運行混元視頻生成模型時,其單機推理速度已超越國際主流產品。
終端設備創新同樣亮眼。全球首款AI算力本MTT AIBOOK搭載長江SoC芯片,提供50TOPS端側算力與多系統兼容能力。這款預裝智能體"小麥"的設備,不僅支持8K視頻播放與四屏擴展,更通過全棧整合實現"開箱即用"的開發體驗。同步亮相的AI Cube迷你計算設備,則以掌心尺寸集成完整智算能力,為邊緣計算場景提供新選擇。
軟件生態建設駛入快車道。MUSA 5.0全棧軟件實現三大突破:編程生態兼容CUDA C與原生MUSA C,計算庫muDNN效率超98%,編譯器性能提升3倍。更值得期待的是即將開源的計算光刻庫muLitho與量子計算框架MUSA-Q,這些底層技術開放將加速國產計算生態的成熟。目前,MUSA生態已吸引超過20萬開發者,與200余所高校開展產教融合項目。
這場技術盛宴背后,是國產GPU對技術自主的執著追求。正如清華大學鄭緯民院士所言,構建"算力自主、算法自強、生態自立"的完整體系,是提升國家競爭力的必由之路。摩爾線程通過MUSA架構的持續迭代,不僅在硬件性能上縮小與國際標桿的差距,更在生態建設上走出獨特路徑——從超大規模智算集群到開發者終端設備,從基礎軟件棧到前沿應用探索,一幅自主計算生態的藍圖正在徐徐展開。












