英偉達與香港大學科研團隊近日聯(lián)合推出了一款名為“Orchestrator”的智能模型,該模型以8億參數的輕量化設計,實現了對多種工具與大型語言模型(LLM)的動態(tài)協(xié)調。實驗數據顯示,這一模型在工具調用基準測試中不僅準確率領先,還能根據用戶需求自動匹配最優(yōu)工具,同時將計算成本控制在更低水平。
研究團隊開發(fā)了名為ToolOrchestra的強化學習框架,其核心創(chuàng)新在于通過訓練小型模型擔任“智能協(xié)調者”角色。區(qū)別于傳統(tǒng)單一大型AI系統(tǒng),該框架讓輕量級模型承擔任務分解與資源調度職責,將復雜問題拆解為子任務后,精準調用不同專業(yè)模型或工具完成具體操作。這種分工模式被證明在處理多步驟任務時效率顯著提升。
在針對博士級推理問題的“HLE”基準測試中,Orchestrator展現出獨特優(yōu)勢。對比通用型大模型,該模型在保持高準確率的同時,計算資源消耗降低超過40%。特別在工具調用環(huán)節(jié),其智能調度策略減少了30%以上高成本模型的調用頻率,通過動態(tài)組合基礎工具與專業(yè)模型,實現了資源利用的最優(yōu)化配置。
科研人員指出,現有LLM工具集成方案多停留在簡單疊加階段,而人類解決問題時往往會調用超越自身認知范圍的外部資源。基于此洞察,研究團隊構建了復合型AI系統(tǒng)架構:協(xié)調者模型首先解析任務需求,隨后生成包含工具選擇、調用順序的執(zhí)行方案,最終通過多模型協(xié)作完成復雜推理。這種設計使系統(tǒng)具備更強的環(huán)境適應能力。
企業(yè)應用測試表明,Orchestrator對未接觸過的模型架構和定價體系表現出良好兼容性。某金融科技公司的實測數據顯示,該模型在風險評估場景中,通過智能組合不同數據源與計算工具,將響應時間縮短至原系統(tǒng)的三分之一,同時將模型調用成本降低55%。這種靈活性為需要整合多元AI服務的企業(yè)提供了新的技術路徑。
目前研究團隊已開放項目技術文檔與訓練框架,詳細說明通過強化學習優(yōu)化模型協(xié)調能力的具體方法。文檔顯示,該框架通過構建包含任務分解、工具評估、結果反饋的閉環(huán)訓練系統(tǒng),使協(xié)調者模型逐步掌握最優(yōu)調度策略。這種訓練方式不依賴特定領域知識,為模型向更多專業(yè)場景遷移奠定了基礎。











