12 月 2 日消息,科技媒體 Tom's Hardware 今天(12 月 2 日)發(fā)布博文,報道稱英偉達(dá)在最新論文中,詳述名為 TiDAR 的新型 AI 解碼方法,巧妙融合了自回歸(Autoregressive)與擴(kuò)散(Diffusion)兩種模型機(jī)制,利用 GPU 的“空閑槽位”加速文本生成。
自回歸(Autoregressive)是一種生成方式,AI 必須根據(jù)上一個字才能猜出下一個字,像接龍一樣,只能按順序一個接一個生成。
擴(kuò)散(Diffusion)常用于 AI 繪畫的技術(shù),通過逐步去除噪點(diǎn)來生成內(nèi)容,在 TiDAR 中,它被用來一次性“猜”出好幾個可能的詞,供后續(xù)篩選。
援引博文介紹,當(dāng)前的語言模型通常一次生成一個 Token(詞元),這種逐個生成的機(jī)制導(dǎo)致了極高的計算成本和延遲。
TiDAR 的核心理念在于利用模型推理過程中未被使用的“空閑槽位”,在不犧牲生成質(zhì)量的前提下,通過單步生成多個 Token 來大幅提升響應(yīng)速度并降低 GPU 運(yùn)行時長。
在技術(shù)原理方面,TiDAR 創(chuàng)新性地訓(xùn)練單個 Transformer 模型同時執(zhí)行兩項任務(wù):標(biāo)準(zhǔn)的自回歸“下一詞預(yù)測”和基于擴(kuò)散的“并行起草”。
不同于以往依賴獨(dú)立草稿模型的投機(jī)解碼(Speculative Decoding),TiDAR 通過結(jié)構(gòu)化的注意力掩碼(Attention Mask)將輸入分為三個區(qū)域:前綴區(qū)、驗證區(qū)和起草區(qū)。
投機(jī)解碼是一種加速技術(shù),先用一個小模型快速草擬一段話,再由大模型進(jìn)行檢查和修正。TiDAR 試圖在同一個模型內(nèi)完成這兩步。
這種設(shè)計讓模型在利用擴(kuò)散頭并行起草新 Token 的同時,還能通過自回歸頭驗證這些草稿,最關(guān)鍵的是,它確保了 KV 緩存(KV Cache)的結(jié)構(gòu)有效性,解決了早期擴(kuò)散解碼器面臨的部署難題。
研究團(tuán)隊基于 Qwen 系列模型進(jìn)行了測試。在 Humaneval 和 GSM8K 等基準(zhǔn)測試中,TiDAR 的準(zhǔn)確率與基準(zhǔn)模型持平甚至略有提升。
在速度方面,15 億參數(shù)版本的 TiDAR 模型實(shí)現(xiàn)了 4.71 倍的吞吐量增長;而 80 億參數(shù)版本的表現(xiàn)更為搶眼,吞吐量達(dá)到了 Qwen3-8B 基準(zhǔn)的 5.91 倍。這表明在當(dāng)前測試規(guī)模下,TiDAR 能有效利用 GPU 的顯存帶寬,在不增加額外顯存搬運(yùn)的情況下生成更多 Token。
該媒體指出盡管實(shí)驗數(shù)據(jù)亮眼,TiDAR 目前仍面臨規(guī)模擴(kuò)展的挑戰(zhàn)。論文中的測試僅限于 80 億參數(shù)以下的中小模型,且未涉及定制化的內(nèi)核級優(yōu)化(如 fused kernels),僅使用了標(biāo)準(zhǔn)的 PyTorch 環(huán)境。
隨著模型參數(shù)量和上下文窗口的擴(kuò)大,計算密度可能會飽和,從而壓縮“多 Token 擴(kuò)展”的成本優(yōu)勢。研究人員表示,未來將在更大規(guī)模的模型上進(jìn)行驗證,以確定該技術(shù)是否能成為云端大規(guī)模 AI 部署的實(shí)用替代方案。











