國產(chǎn)算力領(lǐng)域近期迎來重要突破,兩家企業(yè)分別從芯片架構(gòu)與系統(tǒng)集成角度推出創(chuàng)新成果,標(biāo)志著行業(yè)競(jìng)爭(zhēng)焦點(diǎn)從單卡性能轉(zhuǎn)向大規(guī)模集群協(xié)同能力。這一轉(zhuǎn)變?cè)从诖竽P陀?xùn)練對(duì)算力需求的指數(shù)級(jí)增長——當(dāng)參數(shù)量突破萬億級(jí)后,單一芯片的物理性能已觸及天花板,如何讓上萬張計(jì)算卡高效協(xié)作成為關(guān)鍵挑戰(zhàn)。
摩爾線程在開發(fā)者大會(huì)上發(fā)布的“花港”全功能GPU架構(gòu),通過計(jì)算密度提升與低精度計(jì)算支持實(shí)現(xiàn)技術(shù)躍遷。據(jù)披露,新架構(gòu)算力密度較前代提升50%,能效比提高10倍,并支持從FP4到FP64的全精度計(jì)算范圍。基于該架構(gòu)規(guī)劃的“華山”芯片定位AI訓(xùn)推一體場(chǎng)景,專為萬卡級(jí)集群設(shè)計(jì);“廬山”芯片則聚焦圖形渲染領(lǐng)域,AI計(jì)算性能提升64倍,光線追蹤效率增長50%。這種“雙線并進(jìn)”策略延續(xù)了其全功能GPU路線,試圖在圖形與計(jì)算市場(chǎng)同步建立優(yōu)勢(shì)。
系統(tǒng)層面的創(chuàng)新同樣引人注目。中科曙光推出的scaleX萬卡超集群系統(tǒng)首次實(shí)現(xiàn)國產(chǎn)萬卡級(jí)算力集群的實(shí)物展示,該系統(tǒng)由16個(gè)超節(jié)點(diǎn)通過高速網(wǎng)絡(luò)互連,可部署超萬張AI加速卡。針對(duì)高密度部署的散熱難題,系統(tǒng)采用浸沒相變液冷技術(shù),使單機(jī)柜算力密度提升20倍,PUE值降至1.04。這一突破意味著在相同空間與電力條件下,數(shù)據(jù)中心可容納更多算力,直接降低運(yùn)營成本。
通信延遲成為制約集群性能的另一瓶頸。當(dāng)GPU數(shù)量突破萬級(jí)時(shí),節(jié)點(diǎn)間數(shù)據(jù)傳輸效率直接影響整體運(yùn)算速度。摩爾線程通過新一代異步編程模型與自研MTLink互聯(lián)技術(shù),宣稱支持十萬卡規(guī)模擴(kuò)展;中科曙光則發(fā)布scaleFabric網(wǎng)絡(luò)架構(gòu),依托400Gb/s帶寬與亞微秒級(jí)延遲的原生RDMA網(wǎng)卡,構(gòu)建起低延遲通信網(wǎng)絡(luò)。兩家企業(yè)的技術(shù)路徑雖不同,但均瞄準(zhǔn)解決“通信墻”這一行業(yè)痛點(diǎn)。
推理場(chǎng)景的需求爆發(fā)推動(dòng)硬件適配性升級(jí)。隨著DeepSeek等6710億參數(shù)大模型落地,硬件廠商需證明其產(chǎn)品能支撐復(fù)雜推理任務(wù)。測(cè)試數(shù)據(jù)顯示,摩爾線程MTT S5000單卡在預(yù)填充環(huán)節(jié)吞吐量突破4000 tokens/s,解碼吞吐量超1000 tokens/s,表明國產(chǎn)GPU已具備處理千億參數(shù)模型的全流程能力。這種突破不僅驗(yàn)證了硬件性能,更為大模型商業(yè)化應(yīng)用掃清障礙。
軟件生態(tài)的完善程度正成為競(jìng)爭(zhēng)新維度。摩爾線程將MUSA統(tǒng)一架構(gòu)升級(jí)至5.0版本,核心計(jì)算庫muDNN在矩陣乘法與注意力機(jī)制等關(guān)鍵算法上的效率超過98%,顯示出在CUDA生態(tài)壟斷下的突圍努力。中科曙光則采取開放策略,其系統(tǒng)支持多品牌加速卡,已完成400余個(gè)大模型的適配優(yōu)化,通過構(gòu)建兼容性底座降低客戶遷移成本。這種差異化競(jìng)爭(zhēng)路徑,反映出國產(chǎn)算力產(chǎn)業(yè)在生態(tài)建設(shè)上的多元探索。
從芯片架構(gòu)革新到系統(tǒng)集成突破,從訓(xùn)練效率提升到推理性能驗(yàn)證,國產(chǎn)算力產(chǎn)業(yè)正通過技術(shù)迭代與生態(tài)構(gòu)建雙輪驅(qū)動(dòng),逐步縮小與國際領(lǐng)先水平的差距。在萬億參數(shù)大模型時(shí)代,這場(chǎng)圍繞“規(guī)模與效率”的競(jìng)賽,或?qū)⒅匦露x全球算力格局。









