上海交通大學(xué)近日宣布,其自主研發(fā)的國產(chǎn)智算算力基礎(chǔ)設(shè)施“致遠(yuǎn)一號”正式投入使用。該平臺憑借其龐大的規(guī)模和先進的配置,成為全國高校中規(guī)模最大的同類設(shè)施,為教學(xué)、科研及管理提供了強有力的算力支持。
“致遠(yuǎn)一號”的硬件配置堪稱豪華,平臺內(nèi)共部署了1024張華為昇騰910B加速卡,F(xiàn)P16峰值算力高達(dá)313P。同時,配合Pacific分布式存儲與BurstBuffer架構(gòu),總存儲容量達(dá)到了驚人的13.6PB。這一配置不僅滿足了大規(guī)模數(shù)據(jù)處理的需求,也為復(fù)雜模型的訓(xùn)練提供了堅實的基礎(chǔ)。
在計算能力方面,“致遠(yuǎn)一號”同樣表現(xiàn)出色。平臺配備了101臺CPU節(jié)點,形成了擁有5000多個vCPU的通用計算池。云服務(wù)支持IaaS、PaaS、SaaS全棧功能,具備異構(gòu)算力調(diào)度與云化彈性部署能力,能夠靈活應(yīng)對多樣化的應(yīng)用場景需求。
“致遠(yuǎn)一號”的網(wǎng)絡(luò)與算力資源被精心劃分為智算集群區(qū)、云平臺區(qū)和存儲區(qū)。智算集群區(qū)部署了128臺Atlas 800T A2昇騰服務(wù)器,共1024張NPU卡,峰值算力達(dá)到320P。網(wǎng)絡(luò)架構(gòu)方面,參數(shù)面、業(yè)務(wù)面和樣本面分別采用了不同的高速網(wǎng)絡(luò)設(shè)備,確保了數(shù)據(jù)傳輸?shù)母咝c穩(wěn)定。
云平臺區(qū)則基于HCSO和ModelArts構(gòu)建,配置了101臺鯤鵬Taishan 200 2280 V2服務(wù)器及60臺網(wǎng)絡(luò)設(shè)備。同時,提供了2PB云對象存儲、1PB云塊存儲和1.6PB云文件存儲,為云服務(wù)提供了充足的資源保障。
存儲區(qū)采用了全閃與混閃架構(gòu)相結(jié)合的方式,全閃Pacific 9950提供了43節(jié)點、6.5PB的容量,而混閃Pacific 9550則提供了12節(jié)點、2.5PB的容量。這種設(shè)計不僅提高了數(shù)據(jù)存儲的效率,也為并行計算與大規(guī)模模型訓(xùn)練提供了高效的數(shù)據(jù)支撐。
在機房建設(shè)方面,“致遠(yuǎn)一號”同樣不遺余力。平臺共設(shè)置了52個47U加高機柜,分布在3組封閉微模塊中。其中,34個機柜用于智能計算服務(wù)器,單柜功率達(dá)到30kW;18個機柜用于存儲和網(wǎng)絡(luò)服務(wù)器,單柜功率為20kW。這樣的布局既保證了設(shè)備的密集部署,又便于管理和維護。
供電系統(tǒng)方面,“致遠(yuǎn)一號”采用了額定功率960kW的供電系統(tǒng),機房配電總功率達(dá)到1380kW。每個機柜都配備了雙路PDU,存儲和網(wǎng)絡(luò)機柜還接入了UPS,確保在斷電情況下能夠維持15分鐘的不間斷供電,為數(shù)據(jù)的穩(wěn)定性和安全性提供了有力保障。
制冷系統(tǒng)方面,“致遠(yuǎn)一號”配置了30臺風(fēng)冷列間精密空調(diào),單臺功率為60kW,按“N+2”冗余方案部署,總制冷功率達(dá)到1440kW。同時,采用了氟泵雙循環(huán)自然冷卻技術(shù),使得全年綜合PUE約1.3,有效降低了能耗和運營成本。
回顧上海交通大學(xué)高性能計算中心的發(fā)展歷程,自2012年成立以來,該中心已經(jīng)走過了十多個年頭。從2013年建成的“交我算”第一個集群π1.0,到如今的“致遠(yuǎn)一號”平臺全面落地,“交我算”品牌已經(jīng)逐漸成長為國內(nèi)高校高性能計算領(lǐng)域的佼佼者。
值得一提的是,上一代“思源一號”高性能計算平臺建于2021年,總算力達(dá)到6 PFLOPS。而“致遠(yuǎn)一號”的建成,無疑將進一步提升上海交通大學(xué)在高性能計算領(lǐng)域的實力和影響力。











