在近期舉辦的全球頂尖人工智能學術會議上,阿里巴巴通義千問團隊憑借創新研究《Attention Gating Makes Better Foundation Models》斬獲最佳論文獎,成為四篇獲獎成果中唯一來自中國的團隊。本屆會議共收到兩萬篇投稿,最終錄取率僅為25%,創下歷年競爭最激烈紀錄。
研究團隊提出了一種名為"動態注意力門控"的機制,通過在標準注意力模塊后疊加可學習的門控層,實現計算資源的智能分配。該機制如同為模型配備"智能篩選器",能夠實時判斷哪些注意力頭、哪些語言單元需要參與后續計算。實驗數據顯示,在1.7億參數的稠密模型和150億參數的混合專家模型上,采用該技術后僅增加1%參數量,卻使語言模型困惑度降低0.2,多任務語言理解基準測試MMLU得分提升2分,在Pile數據集各子領域均取得顯著提升。
團隊負責人解釋稱,這種門控機制相當于在注意力計算流程中增設"安檢關卡",將無效信息攔截在前饋神經網絡之前,既提升了計算效率又增強了模型魯棒性。特別在處理長文本時,該技術能自動識別關鍵信息,減少冗余計算,使模型在保持性能的同時降低能耗。
目前,這項創新技術已集成至即將發布的Qwen3-Next大模型中。阿里巴巴同步將核心代碼與17億參數的實驗模型開源至GitHub平臺,供全球開發者驗證優化。研究團隊透露,后續將探索該機制在多模態大模型和長文本處理領域的應用,推動"自適應注意力"成為新一代基礎模型的標準組件。











