當2023年初某科技巨頭宣稱“全球僅需幾個大模型”時,這場關于智能形態的爭論便埋下了伏筆。這一論斷與1943年IBM董事長“世界只需五臺計算機”的預言驚人相似,而歷史正在給出新的答案——清華大學聯合研究團隊在《自然·機器學習》發表的封面論文《大模型的密度法則》揭示:每3.5個月,模型的能力密度就會翻倍,這項發現正重塑著人工智能的發展軌跡。
能力密度作為核心指標,衡量著單位參數或算力下模型的智能水平。研究顯示,自ChatGPT問世后,這一指標的增長曲線陡然上揚。不同于傳統規模法則對“更大模型、更多數據”的追求,密度法則聚焦于效率革命:如何在有限資源下實現智能的指數級躍遷。這種轉變正推動技術重心從云端向端側遷移,手機、汽車、機器人等終端設備開始承載原本需要數據中心運行的復雜模型。
清華大學計算機系副教授劉知遠指出,2023年全國端側算力總和已是數據中心的12倍,這種分布式計算架構將深刻影響智能形態的演進。他的團隊與面壁智能開發的MiniCPM系列模型,已在2.4B參數規模下實現13B參數模型的效果,成功在手機端運行。這種“小體積、大智慧”的突破,源于對模型架構、數據治理、算法優化的系統性創新。
在模型架構層面,混合專家系統(MoE)與稀疏注意力機制成為主流。通過將前饋網絡切割為多個“專家模塊”,僅激活部分計算單元,既保持了模型能力又大幅降低能耗。注意力機制的革新則著眼于長文本處理,滑動窗口、線性注意力等設計使模型能夠處理超長上下文,這在智能座艙、多模態交互等場景尤為重要。長安馬自達等車企已將相關技術應用于量產車型,實現車內環境感知、多乘客識別等超過100項功能。
數據治理的突破同樣關鍵。研究團隊構建的分層處理流程(L0-L4),從原始數據抓取到高質量合成,將預訓練數據集壓縮至原規模的十分之一,同時提升模型效果。這種“精煉”技術不僅降低訓練成本,更揭示了智能的本質問題:達到特定能力所需的最小數據集究竟如何構成?在強化學習領域,數據質量直接決定模型上限,代碼競賽金牌水平的實現便依賴于精心設計的獎勵機制。
強化學習(RL)的Scaling Law缺失,成為當前技術突破的焦點。不同于預訓練階段清晰的算力-能力對應關系,RL在環境擴展與獎勵驗證上面臨挑戰。前OpenAI研究員Jason Wei強調構建“不可破解環境”的必要性,而Ilya則認為人類學習本就不依賴完美環境。這種分歧指向兩條探索路徑:一是持續擴大環境規模與獎勵維度,二是開發類似人類的高效學習方式。Thinking Machines Lab等機構已開始在特定商業場景中驗證RL的落地潛力。
端側智能的爆發臨界點正在臨近。研究預測,到2030年,終端設備將能夠運行60B+參數的模型,激活規模達8B+。這一進程將分階段實現:2027年手機端可支持大規模強化學習,2030年眼鏡、耳機等外設將與隨身計算終端形成協同網絡。屆時,每個人都將擁有基于個人數據持續進化的“專屬智能體”,而云端則部署著外賣、出行、內容等領域的專家模型,構成“智能體的互聯網”。
在這場效率革命中,中國團隊正扮演關鍵角色。DeepSeek-3的發布標志著“成本、能效”成為行業核心指標,具身智能領域對密度法則的廣泛引用,印證了技術路線的普適性。當芯片電路密度與模型能力密度的曲線交匯,一個嶄新的智能時代正在拉開帷幕——在這里,智能不再集中于少數云端,而是如空氣般分布于每個終端,真正實現“智能無感化”的終極目標。










