在人工智能領(lǐng)域,一場(chǎng)關(guān)于推理架構(gòu)的變革正悄然興起。一種名為“解耦推理”的新理念,從實(shí)驗(yàn)室概念迅速成長(zhǎng)為行業(yè)新標(biāo)準(zhǔn),被眾多主流大模型推理框架采納,推動(dòng)AI邁向模塊化智能的新階段。這一變革的背后,是加州大學(xué)圣地亞哥分校“Hao AI Lab”提出的DistServe系統(tǒng),其通過將大模型推理過程拆分為“預(yù)填充”和“解碼”兩個(gè)獨(dú)立階段,為行業(yè)帶來了全新的思路。
在DistServe出現(xiàn)之前,大多數(shù)推理框架采用“同址部署”方式,即在同一塊GPU上同時(shí)執(zhí)行“預(yù)填充”和“解碼”。這種“連續(xù)批處理”技術(shù)雖曾成為業(yè)界標(biāo)準(zhǔn),卻存在兩個(gè)根本性限制。一方面,“預(yù)填充”和“解碼”共享GPU,延遲會(huì)相互干擾,即便采取緩解措施,大型預(yù)填充請(qǐng)求仍可能導(dǎo)致輸出延遲大幅增加,尤其在負(fù)載突發(fā)時(shí)更為明顯。另一方面,二者耦合伸縮,資源分配器需同時(shí)滿足兩種最壞情況的延遲需求,導(dǎo)致計(jì)算資源利用率低下,整體效率不佳。隨著部署規(guī)模擴(kuò)大和延遲要求提高,這些問題帶來的成本劇增,促使DistServe應(yīng)運(yùn)而生。
DistServe通過將“預(yù)填充”與“解碼”拆分為獨(dú)立計(jì)算池,徹底打破二者干擾,實(shí)現(xiàn)獨(dú)立伸縮,使其能各自滿足關(guān)鍵延遲指標(biāo)要求,同時(shí)保持高整體效率。然而,這一顛覆性想法最初并未獲得廣泛采用。2024年大部分時(shí)間里,開源社區(qū)因?qū)υ型评硐到y(tǒng)進(jìn)行深度架構(gòu)重構(gòu)需大量工程投入,對(duì)其持保留態(tài)度。但到了2025年,局面逆轉(zhuǎn),幾乎所有主流大模型推理?xiàng)6紝ⅰ敖怦睢币暈槟J(rèn)方案。
這一轉(zhuǎn)變主要源于多方面因素。首先,企業(yè)將大模型作為核心業(yè)務(wù)組件,“延遲控制”成為關(guān)鍵,DistServe讓“預(yù)填充”和“解碼”延遲易于觀測(cè)和控制,且在真實(shí)生產(chǎn)環(huán)境中可持續(xù)優(yōu)化。其次,隨著模型體量擴(kuò)大和訪問流量激增,推理系統(tǒng)需擴(kuò)展到數(shù)百乃至上千張GPU,解耦架構(gòu)優(yōu)勢(shì)凸顯,可為不同階段獨(dú)立分配資源,靈活配合多種并行策略,實(shí)現(xiàn)極高資源利用率。“解耦”增強(qiáng)了系統(tǒng)架構(gòu)的可組合性。
如今,“解耦推理”已成為大模型推理的主要設(shè)計(jì)原則之一,在多個(gè)層面得到廣泛應(yīng)用。在編排層,NVIDIA Dynamo是專為“預(yù)填充-解碼解耦”設(shè)計(jì)的先進(jìn)開源數(shù)據(jù)中心級(jí)分布式推理框架,llm-d、Ray Serve等也基于解耦推理架構(gòu)。在存儲(chǔ)層,芝加哥大學(xué)團(tuán)隊(duì)開發(fā)的LMCache通過加速“預(yù)填充”實(shí)例到“解碼”實(shí)例的KV緩存移動(dòng)優(yōu)化解耦過程,Kimi AI團(tuán)隊(duì)開發(fā)的MoonCake以“KVCache中心化”為核心,構(gòu)建面向解耦的LLM推理平臺(tái),二者已成為大規(guī)模LLM推理系統(tǒng)的標(biāo)準(zhǔn)存儲(chǔ)后端。在核心引擎層,幾乎所有開源LLM推理引擎,如SGLang與vLLM,都原生支持“解耦推理”。
隨著“預(yù)填充-解碼解耦”理念逐漸成熟,學(xué)術(shù)界和工業(yè)界正探索新方向,推動(dòng)解耦架構(gòu)邁向“通用分解式推理”階段。在計(jì)算層面,研究者開始在模型層級(jí)上細(xì)化解耦粒度。2025年,MIT CSAIL與DeepSeek Research提出“Attention–FFN Disaggregation”框架,將Transformer的注意力模塊與前饋層分別放置于不同計(jì)算節(jié)點(diǎn),使不同節(jié)點(diǎn)利用異構(gòu)硬件優(yōu)勢(shì),未來推理系統(tǒng)可能每個(gè)節(jié)點(diǎn)運(yùn)行模型的一個(gè)功能子模塊。跨層級(jí)的流水線分解也成為解耦架構(gòu)的自然延伸,多個(gè)研究團(tuán)隊(duì)提出框架,如Stanford DAWN的“DisPipe”系統(tǒng)、meta AI的“HydraPipe”、Alibaba DAI-Lab的“PipeShard”,這些系統(tǒng)讓推理過程在不同節(jié)點(diǎn)間以“階段流”方式流動(dòng),實(shí)現(xiàn)全局流水線化推理,更適合未來多芯片異構(gòu)系統(tǒng)。
在跨模態(tài)與多模型方面,隨著多模態(tài)大模型出現(xiàn),推理系統(tǒng)面臨更復(fù)雜資源編排問題,未來趨勢(shì)是將多模態(tài)推理解耦為多個(gè)模態(tài)子推理流,再在編排層通過調(diào)度器異步融合。同時(shí),在推理系統(tǒng)中同時(shí)運(yùn)行多個(gè)LLM或?qū)S米幽P妥兊贸R姡@些架構(gòu)天然適合解耦化設(shè)計(jì)。
內(nèi)存與緩存體系的解耦也是未來研究方向。當(dāng)前解耦體系依賴“集中式KV緩存池”或“共享SSD集群”,未來要讓緩存體系實(shí)現(xiàn)多層解耦與自治調(diào)度。MIT與ETH Zürich的研究者提出HiKV框架,將KV緩存劃分為GPU本地緩存、節(jié)點(diǎn)共享緩存、分布式持久緩存三個(gè)層次,系統(tǒng)根據(jù)上下文熱度自動(dòng)遷移KV片段,使解耦推理的內(nèi)存管理更具彈性。一些硬件廠商已探索原生支持解耦架構(gòu)的芯片,未來“解耦推理”將演化為軟硬件一體化體系。
從深度學(xué)習(xí)系統(tǒng)“從分散到集中”的趨勢(shì),到如今“從集中到解耦”的反轉(zhuǎn),并非倒退,而是成熟的標(biāo)志。AI系統(tǒng)正走向模塊化智能,不同功能模塊可獨(dú)立演化、擴(kuò)展和優(yōu)化,“解耦推理”正是這一趨勢(shì)的起點(diǎn),未來或許將看到“解耦學(xué)習(xí)”“解耦推理”“解耦認(rèn)知”三者融合的智能架構(gòu)體系。











