人工智能領域迎來重要技術突破,摩爾線程提出的URPO統一獎勵與策略優化框架引發行業關注。這項創新成果被國際頂級學術會議AAAI 2026收錄,為簡化大語言模型訓練流程提供了全新解決方案。研究團隊通過將指令遵循與獎勵評判兩大核心功能整合到單一模型中,實現了訓練效率與模型性能的雙重提升。
該框架在《URPO:A Unified Reward & Policy Optimization framework for Large Language Models》論文中詳細闡述了技術實現路徑。研究團隊突破傳統訓練范式,創造性地構建了三大技術模塊:首先通過數據格式統一技術,將偏好數據、推理數據和指令數據轉化為標準化訓練信號;其次開發自我獎勵循環機制,使模型能夠自主評估生成內容并形成改進閉環;最后建立協同進化體系,讓生成能力與評判能力在混合數據訓練中相互促進。
實驗數據充分驗證了技術有效性。基于Qwen2.5-7B模型的測試顯示,采用URPO框架后,模型在Alpacaeval指令跟隨榜單的得分從42.24提升至44.84,綜合推理能力平均分增長3分。更值得關注的是,模型內生的評判能力在RewardBench評測中取得85.15分,超越專用獎勵模型的83.55分,展現出強大的泛化能力。這種訓練副產品直接轉化為實用功能的技術路徑,為模型開發提供了新思路。
技術落地方面已取得實質性進展。摩爾線程宣布該框架已在其自研計算卡上實現穩定運行,并完成與VERL等主流強化學習框架的深度適配。這種軟硬協同的優化策略,不僅提升了訓練效率,更為后續大規模模型開發奠定了基礎。研究團隊透露,相關技術正在向多模態領域延伸,有望在更復雜的AI應用場景中發揮作用。
行業專家指出,URPO框架的創新性在于打破了傳統訓練中生成與評判分離的架構限制。通過將裁判功能內化于模型自身,既減少了訓練環節的復雜度,又提升了獎勵信號的精準度。這種技術路徑特別適用于需要快速迭代的開發場景,可能引發大模型訓練范式的變革。隨著技術文檔的公開,預計將有更多研究機構和企業開展相關實驗驗證。










