在光合組織2025人工智能創新大會上,中科曙光正式推出全球首款大規模智能計算系統——scaleX萬卡超集群,并首次以實體設備形式向公眾展示。這一國產AI集群系統的亮相,標志著我國在高端智算領域取得重大突破,部分技術指標已超越國際同類產品規劃中的2027年里程碑節點。
該系統采用創新的超節點架構,由16個曙光scaleX640超節點通過自主研發的scaleFabric高速網絡連接而成,可部署10240塊AI加速卡,總算力規模突破5EFlops。作為全球首個單機柜級640卡超節點,scaleX640通過超高密度刀片設計和浸沒相變液冷技術,將單機柜算力密度提升至傳統方案的20倍,同時將能源使用效率(PUE)優化至1.04的行業領先水平。
在核心網絡技術方面,曙光自主研發的scaleFabric網絡基于國內首款400G類InfiniBand原生RDMA網卡與交換芯片,實現了400Gb/s的超高帶寬和低于1微秒的端側通信延遲。這項突破不僅使超節點間的通信性能達到國際頂尖水平,更支持集群規模輕松擴展至10萬卡以上,相較傳統IB網絡性能提升2.33倍,同時將網絡建設成本降低30%。
系統在數據傳輸協同優化方面實現重大創新。通過"超級隧道"架構和AI數據加速技術,構建了從芯片級到應用級的三級協同優化體系。這種設計使存儲平臺能夠高效應對大模型訓練時萬卡并發讀寫帶來的帶寬挑戰,顯著提升高通量AI推理的響應速度和結果精度,同時將AI加速卡資源利用率提高55%。
運維管理方面,該系統引入數字孿生技術,實現故障定位、修復等全流程可視化智能管理。智能化運維平臺確保集群長期可用性達到99.99%的超高標準,智能調度引擎則具備管理萬級節點、服務十萬級用戶的能力,支持每秒萬級作業調度,為大規模AI應用提供堅實保障。
在生態兼容性方面,scaleX萬卡超集群展現出強大的開放能力,支持多品牌加速卡接入,并已完成對400余款主流大模型和世界模型的適配優化。實際應用場景覆蓋大模型訓練、金融風控、地質能源勘探以及科學智能計算等多個領域,為不同行業的數字化轉型提供算力支撐。
值得關注的是,中科曙光聯合20余家AI產業鏈企業共同推出的"AI計算開放架構",通過共享關鍵共性技術能力,依托系統工程思維推動智算集群創新發展。這一架構的落地實施,將有效降低AI企業研發智算集群的技術門檻,促進產業生態協同發展。











