人工智能領(lǐng)域迎來新突破,DeepSeek在GitHub平臺(tái)開源了一款名為L(zhǎng)PLB(Linear-Programming-Based Load Balancer)的并行負(fù)載均衡器。這款基于線性規(guī)劃技術(shù)的工具,專門針對(duì)混合專家(MoE)模型的專家并行工作負(fù)載分配進(jìn)行優(yōu)化,其設(shè)計(jì)理念與英偉達(dá)在萬卡GPU集群中的調(diào)度機(jī)制存在異曲同工之妙。
據(jù)技術(shù)文檔披露,LPLB的核心創(chuàng)新在于將調(diào)度層級(jí)從計(jì)算單元(SM)提升至整個(gè)處理流水線。英偉達(dá)此前通過NVLink連接的GPU集群中,采用類似機(jī)制為不同內(nèi)核分配計(jì)算資源,而DeepSeek的解決方案通過抽象化處理,實(shí)現(xiàn)了更宏觀的負(fù)載調(diào)控。目前該項(xiàng)目仍處于早期研發(fā)階段,具體性能提升幅度尚在持續(xù)評(píng)估中。
該工具通過三重機(jī)制實(shí)現(xiàn)動(dòng)態(tài)均衡:首先利用嵌入的EPLB模塊對(duì)專家進(jìn)行工作負(fù)載統(tǒng)計(jì)驅(qū)動(dòng)的動(dòng)態(tài)重排序;其次構(gòu)建考慮硬件拓?fù)浣Y(jié)構(gòu)的專家副本體系;最后針對(duì)每個(gè)訓(xùn)練批次求解最優(yōu)Token分配方案。其內(nèi)置的線性規(guī)劃求解器采用單SM內(nèi)點(diǎn)法,并調(diào)用NVIDIA的cuSolverDx和cuBLASDx庫(kù)進(jìn)行矩陣運(yùn)算,工作負(fù)載數(shù)據(jù)可通過用戶輸入、torch.distributed框架或Deep-EP內(nèi)部通信器獲取。
作為EPLB的升級(jí)版本,LPLB重點(diǎn)解決MoE訓(xùn)練中的動(dòng)態(tài)失衡問題。EPLB主要處理數(shù)據(jù)分布導(dǎo)致的靜態(tài)不均衡現(xiàn)象,而LPLB則針對(duì)小批次訓(xùn)練中出現(xiàn)的隨機(jī)波動(dòng)。具體實(shí)現(xiàn)上,系統(tǒng)為每個(gè)原始專家配置冗余專家,在GPU間形成傳輸通道,通過求解線性規(guī)劃問題重新分配Token流,在通道容量限制下最小化組內(nèi)負(fù)載差異。為降低通信開銷,系統(tǒng)采用NVLINK和NVSHMEM技術(shù)替代傳統(tǒng)torch.distributed.allreduce方法。
開發(fā)團(tuán)隊(duì)設(shè)計(jì)了多種硬件拓?fù)渲С址桨浮ube模式在8GPU子組內(nèi)構(gòu)建立方體圖結(jié)構(gòu),要求每個(gè)GPU至少承載2個(gè)專家;Hypercube模式擴(kuò)展至16GPU規(guī)模,通過移除對(duì)角邊優(yōu)化跨節(jié)點(diǎn)通信;Torus模式則在節(jié)點(diǎn)內(nèi)外GPU間復(fù)制專家形成環(huán)面結(jié)構(gòu),適用于全局均衡但節(jié)點(diǎn)內(nèi)通信效率略遜于Cube模式。用戶可通過修改r2o矩陣自定義拓?fù)浣Y(jié)構(gòu)。
技術(shù)文檔同時(shí)指出當(dāng)前存在的三大局限:成本估算模型未考慮矩陣乘法的非線性時(shí)間成本,可能導(dǎo)致次優(yōu)調(diào)度;求解器在節(jié)點(diǎn)內(nèi)優(yōu)化耗時(shí)約100微秒,對(duì)小批次任務(wù)影響顯著;極端負(fù)載不均衡場(chǎng)景下,因避免多副本分配給同一原始專家的限制,性能可能弱于EPLB方案。
對(duì)于部署環(huán)境,系統(tǒng)要求CUDA工具包版本不低于12.6.3,強(qiáng)烈建議搭配DeepEP框架使用。安裝流程包含數(shù)學(xué)庫(kù)下載、環(huán)境變量配置和pip安裝三個(gè)步驟,并提供詳細(xì)的拓?fù)涠x接口示例。開發(fā)者可通過GitHub倉(cāng)庫(kù)(https://github.com/deepseek-ai/LPLB)獲取完整代碼和文檔,示例代碼展示了如何配置冗余專家拓?fù)洳?zhí)行負(fù)載重定向操作。









