摩爾線程人工智能研究團隊近日在國際頂級學(xué)術(shù)會議AAAI2026上宣布,其開發(fā)的URPO(統(tǒng)一獎勵與策略優(yōu)化)框架為大型語言模型訓(xùn)練開辟了新路徑。這項創(chuàng)新技術(shù)通過整合訓(xùn)練流程中的關(guān)鍵環(huán)節(jié),有效提升了模型性能與訓(xùn)練效率,在學(xué)術(shù)界和產(chǎn)業(yè)界引發(fā)廣泛關(guān)注。
研究團隊在論文《URPO:面向大型語言模型的統(tǒng)一獎勵與策略優(yōu)化框架》中提出,傳統(tǒng)訓(xùn)練方法需依賴獨立模塊分別處理指令理解與結(jié)果評估,而URPO框架創(chuàng)造性地將這兩種功能集成于單一模型。這種設(shè)計使模型在生成響應(yīng)的同時,能夠自主評估輸出質(zhì)量,形成閉環(huán)優(yōu)化機制。實驗表明,該框架顯著減少了訓(xùn)練過程中的信息損耗,提升了參數(shù)更新效率。
技術(shù)實現(xiàn)層面,URPO框架突破了三大核心難題。研究團隊首先構(gòu)建了通用數(shù)據(jù)轉(zhuǎn)換協(xié)議,將偏好數(shù)據(jù)、推理驗證數(shù)據(jù)和開放式指令數(shù)據(jù)統(tǒng)一編碼為標準化訓(xùn)練信號,解決了多模態(tài)數(shù)據(jù)兼容性問題。其次,通過引入自我獎勵機制,模型在生成多個候選答案后,可基于預(yù)設(shè)標準進行內(nèi)部評分,并將評分結(jié)果直接用于策略優(yōu)化,形成持續(xù)改進的增強循環(huán)。最后,協(xié)同進化算法通過動態(tài)調(diào)整三類數(shù)據(jù)的混合比例,使模型的生成能力與評估能力同步提升,避免出現(xiàn)能力偏科現(xiàn)象。
基于Qwen2.5-7B模型的驗證顯示,URPO框架在多個基準測試中表現(xiàn)優(yōu)異。在Alpacaeval指令跟隨評測中,模型得分從基線水平的38.21提升至44.84;綜合推理能力測試平均分提高3分,達到35.66。更引人注目的是,該模型在RewardBench獎勵模型評測中以85.15分超越專用獎勵模型的83.55分,證明其評估能力達到行業(yè)領(lǐng)先水平。這些數(shù)據(jù)表明,URPO框架在簡化訓(xùn)練架構(gòu)的同時,實現(xiàn)了性能的全面突破。
產(chǎn)業(yè)化應(yīng)用方面,摩爾線程已完成URPO框架與自主計算卡的深度適配,并實現(xiàn)與主流強化學(xué)習(xí)框架VERL的無縫集成。測試數(shù)據(jù)顯示,優(yōu)化后的訓(xùn)練系統(tǒng)在計算資源利用率上提升40%,訓(xùn)練周期縮短35%,為大規(guī)模模型部署提供了高效解決方案。這項成果不僅鞏固了企業(yè)在AI基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)先地位,也為行業(yè)提供了可復(fù)制的技術(shù)范式。

















