近日,中國(guó)移動(dòng)宣布其建設(shè)的國(guó)內(nèi)運(yùn)營(yíng)商最大規(guī)模單集群智算中心——中國(guó)移動(dòng)智算中心(哈爾濱)正式投入運(yùn)營(yíng)。這一里程碑式的成果,將為全國(guó)科技創(chuàng)新與產(chǎn)業(yè)升級(jí)注入強(qiáng)勁動(dòng)力,標(biāo)志著我國(guó)在智能算力領(lǐng)域邁出重要一步。
該智算中心在硬件配置上堪稱行業(yè)標(biāo)桿,部署了超過1.8萬(wàn)張AI加速卡,且全部采用國(guó)產(chǎn)芯片,國(guó)產(chǎn)化率達(dá)到100%。其智能算力規(guī)模高達(dá)6.9EFLOPS,即每秒可完成690億億次浮點(diǎn)運(yùn)算。通過自主研發(fā)的國(guó)產(chǎn)網(wǎng)絡(luò)設(shè)備,所有加速卡被整合為一個(gè)超大規(guī)模集群,實(shí)現(xiàn)了1.8萬(wàn)張卡的全量并行訓(xùn)練與自動(dòng)續(xù)訓(xùn)功能,為萬(wàn)億級(jí)參數(shù)模型訓(xùn)練提供了穩(wěn)定可靠的算力支撐。
在技術(shù)架構(gòu)層面,中心采用參數(shù)面與數(shù)據(jù)面分離的RDMA組網(wǎng)方案。參數(shù)面帶寬達(dá)1.6Tbps,數(shù)據(jù)面吞吐量突破15TB/s,這種設(shè)計(jì)有效保障了大規(guī)模并行計(jì)算和復(fù)雜模型訓(xùn)練的效率。更值得關(guān)注的是,該中心實(shí)現(xiàn)了三大技術(shù)突破:超大規(guī)模云化納管1.8萬(wàn)張加速卡、萬(wàn)卡級(jí)并行訓(xùn)練能力,以及分鐘級(jí)斷點(diǎn)自動(dòng)恢復(fù)訓(xùn)練功能,這些創(chuàng)新顯著提升了大模型訓(xùn)練的穩(wěn)定性和資源利用率。
為確保系統(tǒng)穩(wěn)定運(yùn)行,移動(dòng)云自主研發(fā)的智算管控平臺(tái)發(fā)揮了核心作用。該平臺(tái)具備三大核心能力:統(tǒng)一管理多類型AI加速卡的異構(gòu)算力資源;對(duì)集群內(nèi)計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等全量軟硬件進(jìn)行一站式健康監(jiān)測(cè);實(shí)現(xiàn)AI任務(wù)全生命周期的精準(zhǔn)調(diào)度與故障自動(dòng)修復(fù)。當(dāng)集群出現(xiàn)異常時(shí),系統(tǒng)可在短時(shí)間內(nèi)定位問題并恢復(fù)運(yùn)行,為智算中心提供了可靠的技術(shù)保障。
隨著哈爾濱智算中心的投產(chǎn),移動(dòng)云的國(guó)產(chǎn)化算力服務(wù)能力得到質(zhì)的提升。目前,移動(dòng)云已形成覆蓋公有云、私有云、邊緣計(jì)算的多場(chǎng)景資源池建設(shè)方案,提供從硬件集成到性能調(diào)優(yōu)的全流程服務(wù)。在模型適配方面,已完成LLaMA、GPT、GLM等數(shù)十款主流模型的云端遷移,構(gòu)建起涵蓋預(yù)訓(xùn)練、遷移學(xué)習(xí)、精調(diào)微調(diào)到推理部署的完整技術(shù)鏈條,能夠?yàn)槠髽I(yè)客戶提供定制化的AI解決方案。











