在中國GPU領域,一場圍繞生態構建的激烈角逐正悄然展開。摩爾線程正試圖打造一個具有中國特色的英偉達式生態體系,這一戰略舉措引發了行業的高度關注。
英偉達的CUDA生態在行業內堪稱傳奇。2006年剛推出時,它并未引起太多注意,早期使用體驗也并不理想。一位早期從事CUDA軟件研究的從業者回憶,當時大家習慣了英特爾成熟的X86架構,轉向CUDA時遇到諸多問題,甚至開玩笑稱其“糟糕”。然而,經過五六年的發展,到2015年,CUDA的穩定性已大幅提升,bug難覓。如今,CUDA生態愈發強大,2020年開發者數量約180萬,到2025年已超過450萬,每月工具包下載量達數十萬次,英偉達不斷加固著這一護城河。
摩爾線程將目光瞄準了這一領域,試圖在中國市場復制類似的故事。在北京中關村國際創新中心舉辦的首屆MUSA開發者大會上,摩爾線程創始人張建中在上市后首次公開演講,全面展示了公司的技術實力。此次大會消息公布后,摩爾線程股價連續三天上漲,累計漲幅超50%。
張建中在演講中強調,生態體系是GPU行業的核心價值所在。摩爾線程在自主全功能GPU架構MUSA上投入了五年時間,此次大會是其向市場交出的新答卷。對于GPU而言,架構至關重要,如同靈魂一般。摩爾線程此次發布的全功能GPU架構“花港”,是其面向下一代計算范式的關鍵載體。
“花港”架構在多個方面實現了突破。計算性能上,基于新一代指令集,算力密度提升50%,能效大幅優化,還支持從FP4到FP64的全精度端到端計算,新增多種低精度支持。在異步編程與互聯方面,集成新一代異步編程模型,通過自研MTLink高速互聯技術,支持十萬卡以上規模智算集群擴展。圖形與AI融合方面,內置AI生成式渲染架構,增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate。
基于“花港”架構,摩爾線程規劃了兩條芯片產品線。“華山”系列專注于AI訓推一體與超大規模智能計算,為萬卡級智算集群提供算力支撐,性能介于英偉達的Hopper和Blackwell之間,定位為“下一代AI工廠的堅實底座”。“廬山”系列則專攻高性能圖形渲染,圖形性能實現全面跨越,AI計算性能提升64倍,幾何處理性能提升16倍,光線追蹤性能提升50倍,運行3A游戲性能提升15倍。不過,這兩款產品目前尚未量產。
在AI算力競爭進入“萬卡集群”時代的背景下,摩爾線程發布了夸娥萬卡智算集群(KUAE 2.0),展示了其支撐萬億參數模型訓練的工程化能力。該集群在多項關鍵指標上表現出色,訓練算力利用率在Dense大模型上達60%,MOE大模型上達40%,有效訓練時間占比超過90%,訓練線性擴展效率達95%,多項關鍵精度指標達到國際主流水平。在推理側,摩爾線程聯合硅基流動,在DeepSeek R1 671B全量模型上實現性能突破,MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,樹立了國產推理性能新標桿。
中國工程院院士、清華大學計算機系教授鄭緯民指出,構建國產萬卡乃至十萬卡級別的超大規模智算系統雖然難度較大,但這是產業發展的必要基礎設施任務。
GPU領域的競爭,最終取決于生態建設。英偉達憑借CUDA構建了近二十年的護城河,摩爾線程也深知生態的重要性。張建中表示,MUSA不僅定義了從芯片設計到軟件生態的統一技術標準,更體現了公司堅持底層創新、長期發展的戰略核心。
截至2025年12月,摩爾線程通過“摩爾學院”匯聚了20萬名開發者與學習者,并通過“國產計算生態與AI教育共建行動”走進全國200多所高校,吸引超10萬名學子參與。在軟件棧層面,MUSA 5.0實現全面升級,原生支持MUSA C,深度兼容多種語言,核心計算庫效率超98%,通信效率達97%,公司還計劃逐步開源核心組件。
一位AI行業從業者認為,通過軟硬件協同設計,國產算力能夠得到充分發揮。當前,模型預訓練仍以英偉達芯片為最優解,但其價格高昂,單個芯片市場報價通常在20萬至25萬元之間。在AI需求持續增長的背景下,這是一筆需要權衡的經濟賬。因此,即使美國放松對AI芯片銷售的限制,中國市場是否接受英偉達的H200芯片仍存在不確定性。
盡管國產算力方案有一定潛力,但國產生態建設面臨諸多挑戰。摩爾線程在亮出技術實力后,仍需面對生態建設的長期挑戰、大規模商用部署的驗證以及復雜的國際競爭環境,后續發展備受行業關注。









