國產算力領域迎來重大突破——記憶張量科技有限公司與商湯科技大裝置團隊聯合宣布,在國產GPGPU集群上成功部署全球首個以“記憶—計算—調度”一體化為核心的PD分離商用推理集群,并在真實生產環境中實現穩定運行。測試數據顯示,該方案綜合推理性價比達到同代英偉達A100的1.5倍,標志著國產算力體系首次在大模型商業化落地中展現出體系級競爭力。
這一突破源于對傳統PD分離技術的深度重構。傳統方案僅通過硬件隔離優化推理性能,但受限于物理架構,性能提升存在天然瓶頸。聯合團隊創新性地將PD分離從硬件優化升級為記憶中心的設計范式,通過記憶張量自主研發的MemOS系統,將大模型認知結構分解為參數記憶、激活記憶、明文記憶三類,構建起跨時間尺度的智能調度鏈路。系統能夠精準判斷計算任務的前移時機、保留策略及淘汰規則,使PD分離架構的潛力得到充分釋放。
在具體實現層面,商湯科技大裝置提供了底層支撐:其IaaS層高效算力池與智能調度系統為模型推理構建了穩定基礎,Ignite框架通過多后端適配、KVCache優化等手段形成完整優化鏈路;算豐信息則負責集群算力管理,確保高性能GPGPU資源、存儲及網絡的高效協同。三方協作下,MemOS的記憶體系被映射為清晰的物理分工:Prefill域(P域)作為“記憶工廠”集中處理影子上下文預測與KV Cache預生成,Decode域(D域)則專注實時交互解碼,兩者通過高帶寬互聯實現跨節點KV Cache“即產即用”,傳輸開銷降低超40%。
生產級評測數據驗證了方案優勢:在2k輸入、1k輸出、首字生成時間(TTFT)小于2秒的嚴苛條件下,集群整體吞吐量從107.85 tokens/s提升至189.23 tokens/s,增幅達75%;單卡并發能力從25.00提升至29.42,提升20%;TTFT全程穩定達標,Decode域因職責單一化避免了資源競爭。記憶張量技術負責人比喻稱:“這相當于為高速算力通道配備了精密的交通指揮系統,使每個計算單元都能發揮最大效能。”
該成果的突破性在于實現了從技術優化到范式變革的跨越。傳統PD分離僅關注硬件層面的計算任務分配,而聯合方案通過MemOS將業務調度邏輯注入記憶單元,使推理過程從靜態計算轉向動態流水線。例如,在C端高并發場景中,系統可自動調整記憶保留策略,確保關鍵任務優先處理;在長文本生成場景下,激活記憶機制能動態平衡計算資源,避免性能衰減。這種設計使國產GPU不再局限于“能運行大模型”,而是具備承載R1級C端業務的完整體系能力。
基于此次實踐,雙方計劃進一步拓展合作邊界:一方面,將構建更大規模的記憶驅動流水線推理底座,整合影子上下文生成、多級緩存管理、AIOps監控等模塊,形成可演進的基礎設施體系;另一方面,將在Prefill行為預測自治化、跨任務長時記憶一致性等前沿領域展開探索,為具身智能、復雜任務編排等場景提供技術支撐。業內專家指出,這一突破標志著國產算力正從“參數計算”向“記憶計算”轉型,有望在AI技術競爭中定義下一代推理范式。








