在大語言模型領域,提升上下文處理能力一直是科研人員關注的焦點。當前,不同廠商發布的大語言模型在超長上下文處理方面取得了顯著進展,部分模型已能支持數百萬Token的輸入,例如MiniMax-M1、Qwen2.5-1M系列模型,均具備百萬Token級別的處理能力。然而,這場關于上下文長度的競爭仍在持續,因為更長的上下文處理能力能夠為模型在金融、法律、醫療等領域的長語境任務中提供更廣闊的應用空間,創造更大的商業與技術價值。
針對這一目標,一支科研團隊提出了“通過有損計算提高大語言模型推理效率”的研究方案。該方案的核心思路是利用大語言模型對低精度計算等“有損操作”產生的噪聲具有較強魯棒性的特點,主動引入可控的信息損失,以換取推理效率的提升。這種“有損計算”主要通過降低計算或存儲精度來實現,重點圍繞模型參數量化、KV Cache壓縮、模型剪枝與知識蒸餾等路徑展開。
在處理醫療領域長篇文獻信息提取等任務時,大語言模型面臨“預訓練長度限制”和“推理內存需求激增”的雙重挑戰。為應對這些挑戰,該團隊的研究實現了兩項關鍵技術突破。在算法層面,通過粗化遠距離標記的位置信息,將模型的語境長度擴展至原有水平的8倍;在系統層面,將過往標記的中間狀態(KV Cache)量化為2比特數字,實現了8倍內存效率提升和3.5倍時鐘時間加速,且不影響模型性能。
在具體實施中,粗化位置信息的策略并非靜態,而是根據上下文需求動態調整。而將KV Cache壓縮至2比特是一項激進的優化,團隊通過大量實驗驗證了其在低精度表示下仍能保持模型準確率。KV Cache是大模型訓練和推理中的重要中間存儲狀態,直接關聯GPU內存。例如,A100 80GB GPU中,超過90%的內存用于存儲KV Cache。將其從16比特壓縮至2比特,相當于將存儲量提升近10倍,顯著降低了硬件成本。
目前,該方案主要在llama模型上進行了實驗驗證,相關研究成果已發表于2024年。團隊開發的AutoKeras等開源項目已被廣泛采用,此次的有損計算技術也已被hugging face的transformer和llama.cpp等主流開源軟件包采納。與混合專家模型(MoE)等技術相比,該方案在哲學上追求效率與準確率的平衡,但在技術路徑上完全不同。MoE通過稀疏性解決問題,而粗化位置信息方法則要求模型讀完所有內容,但無需記憶精確位置。
在應用場景方面,該方案目前主要針對語言大模型,在多模態大模型或其他智能體上的效果尚未充分驗證。實驗表明,在問答類任務中,壓縮至2比特時模型準確率不會下降,但在生成程序等對精度要求極高的任務中可能影響準確性。團隊在醫療健康領域開發了一個基于罕見病的問診系統,用戶可通過輸入癥狀查詢可能的罕見病,效果顯著。由于大模型能夠整合大量統計信息,該方案在法律和醫療等場景中仍具有應用潛力。
關于硬件協同設計,該方案目前專注于GPU層面的優化,尚未涉及特定硬件的變革。然而,團隊認為,未來可能需要新的模型架構在預訓練階段直接融入稀疏性設計,而非僅在推理階段進行補救。該方案具有“即插即用”的特點,實現原理簡單易懂,因此用戶數量眾多。目前,團隊正探索2比特壓縮在實際中的應用邊界,以及理論研究與系統落地的結合方向。











