OpenAI近日開源了一款名為Circuit-Sparsity的新型人工智能模型,其參數量僅0.4B,其中99.9%的權重被設定為零,僅保留0.1%的關鍵權重。這一創新旨在解決大語言模型(LLM)長期存在的“黑箱”問題,即模型決策過程難以解釋、內部邏輯不透明等挑戰。
在人工智能快速發展的背景下,大語言模型雖展現出強大的能力,但其內部運作機制始終難以捉摸。例如,在醫療、金融等高風險領域,模型決策的不可解釋性成為其廣泛應用的主要障礙。OpenAI的研究團隊通過訓練一種權重稀疏的Transformer模型,強制模型僅使用極少數關鍵連接,從而構建出內部邏輯清晰、可讀的“電路”結構。
研究團隊發現,在傳統密集模型中,單個神經元往往需要同時處理多個概念,導致特征糾纏和決策混亂。而稀疏模型通過限制神經元之間的連接數量,使每個神經元僅負責特定任務。例如,在處理字符串閉合任務時,模型僅用12個節點就構建了一個清晰的電路,能夠準確檢測單引號或雙引號是否閉合。部分神經元被觀察到專門負責檢測單引號,另一些則像“計數器”一樣追蹤列表的嵌套深度。
實驗結果顯示,稀疏模型的電路規模比密集模型縮小了16倍,這意味著解讀模型思維的難度大幅降低。研究團隊通過“均值消融”實驗驗證了這些電路的真實性:移除電路中的關鍵節點會導致模型性能崩潰,而移除非電路節點則幾乎無影響。這一發現表明,稀疏模型中的電路確實是模型執行任務的“核心路徑”。
盡管稀疏模型在可解釋性方面表現突出,但其計算效率仍存在瓶頸。由于稀疏矩陣運算無法借助硬件加速,其運算速度較密集模型慢100至1000倍。這一限制使得該技術目前難以直接應用于千億參數級別的大規模模型。為解決這一問題,研究團隊提出了“橋梁網絡”方案:通過在稀疏模型與密集模型之間插入編碼器-解碼器對,實現對密集模型的可解釋性行為編輯。例如,研究人員可以在稀疏模型上修改某個特征,然后通過橋梁將其映射回密集模型,從而間接影響密集模型的決策過程。
研究團隊在技術論文中指出,稀疏模型的性能與稀疏度之間存在權衡關系:在模型規模固定的前提下,提高稀疏度會略微降低模型性能,但能顯著增強其可解釋性。這一發現為未來設計更透明、更可控的人工智能系統提供了重要參考。
目前,OpenAI已將Circuit-Sparsity模型開源,并提供了詳細的訓練方法和實驗數據。研究團隊表示,下一步計劃將相關技術擴展至更大規模的模型,同時探索從現有密集模型中提取稀疏電路的方法,以降低訓練成本。團隊還在研發更高效的可解釋性模型訓練技術,旨在推動相關技術在實際生產環境中的應用。











