在人工智能領域,如何讓機器像人類一樣靈活運用多種工具解決復雜問題,一直是科研人員探索的重要方向。近期,一項由科研團隊聯合開展的研究取得突破性進展,他們開發的系統讓AI在視覺分析和機器人操作領域展現出強大能力,為這一難題提供了創新解決方案。
傳統AI視覺模型在處理簡單識別任務時表現尚可,例如判斷物體顏色或形狀,但面對需要綜合多種能力的復雜空間推理時,往往力不從心。例如,當被問及“哪個踏板最小且應如何啟動”時,這類模型難以同時完成識別、比較大小和定位操作點等任務。研究團隊開發的SpaceTools系統則通過整合多種視覺工具,使AI能夠像專業廚師協調使用廚具一樣,靈活應對各類復雜場景。
該系統的核心創新在于“雙重交互強化學習”(DIRL)訓練方法。這一方法分為兩個階段:第一階段為“教學階段”,AI首先學習使用基礎的指向工具,掌握精準識別和定位物體的能力,同時通過高級AI模型示范完整工具使用流程;第二階段為“探索階段”,AI在已掌握基礎技能的基礎上,嘗試協調使用全套工具,并通過不斷試錯和反饋優化策略。這種分階段訓練方式,使AI能夠逐步構建起復雜工具的協調能力。
為支撐這一訓練過程,研究團隊還開發了名為Toolshed的技術平臺。該平臺采用“去耦合”設計,允許不同視覺工具在獨立環境中運行,避免資源競爭和相互干擾。其異步處理機制更使AI能夠同時調用多個工具,大幅提升效率。例如,在需要同時使用深度估計、物體分割和3D邊界框工具時,系統可確保各工具快速響應,避免因計算延遲導致任務失敗。
在獎勵機制設計上,研究團隊摒棄了傳統“對錯二分法”,轉而采用更精細的評分標準。例如,在指向任務中,AI的得分會根據其指向位置與正確位置的接近程度動態調整,離目標越近得分越高。這種設計使AI能夠在訓練過程中獲得更具體的反饋,從而更快優化策略。對于姿態估計和抓握預測等高級任務,系統則通過比較預測結果與真實數據的差異來評分,確保評估的準確性。
實際測試中,SpaceTools在多個標準數據集上表現優異,涵蓋從基礎空間關系理解到復雜機器人操作的任務類型。在真實機器人實驗中,該系統控制7自由度機械臂執行拾取和放置任務時,成功率達到86%。特別是在需要理解空間關系的任務中,如“拾取更遠的椰子水”,其表現顯著優于GPT-5和Claude等商業AI模型。這一結果證明,專門訓練對提升AI的多工具協調能力至關重要。
研究團隊還通過消融實驗驗證了系統各組件的必要性。實驗表明,若移除高級AI模型的示范模塊,AI在復雜任務中的表現會明顯下降;若省略探索階段的訓練,工具協調能力將受到限制。這些發現進一步確認了DIRL方法各環節的協同作用。
在系統工程層面,Toolshed平臺采用模塊化設計,支持動態擴展和負載均衡。其支持的視覺工具包括深度估計、物體分割和指向檢測等,機器人工具則涵蓋圖像捕獲、抓握執行和物體放置等功能。這種設計使系統可根據任務需求靈活配置工具組合,同時保持高效運行。
訓練數據的質量和平衡性也是研究團隊關注的重點。原始數據集中存在答案分布不均的問題,例如超過75%的答案為“否”,這可能導致AI偏向預測單一結果。通過重新平衡數據集,研究團隊確保了AI能夠做出更均衡的判斷,避免因數據偏差影響性能。
在模型架構選擇上,研究團隊采用具有25億參數的Qwen2.5-VL-3B-Instruct作為基礎模型,僅對語言模型部分進行微調,而保持視覺編碼器凍結。這種設計既保證了訓練效率,又維持了模型在視覺理解方面的原有能力。訓練過程中使用的GRPO算法,通過比較同一批次中不同回答的相對表現來更新模型,進一步提升了訓練穩定性。
機器人實驗中,研究團隊使用Kinova Jaco機械臂和ZED2 RGB-D攝像頭,將機器人系統抽象為工具,提供圖像捕獲、深度獲取等API接口。這種設計使AI能夠統一控制感知和行動模塊,實現從環境觀察到動作執行的完整流程。實驗覆蓋簡單拾取、關系拾取和拾取放置三類任務,結果顯示SpaceTools在所有任務類型上均表現良好,尤其在關系拾取任務中優勢顯著。
與商業AI模型的對比實驗進一步證明了SpaceTools的先進性。當接入相同工具系統時,GPT-5和Claude在需要精確工具協調的任務中表現遜色,而專門訓練的SpaceTools則展現出更強的適應能力。這一結果凸顯了針對性訓練在復雜任務處理中的重要性。
研究還發現,工具增強的訓練不僅提升了模型在訓練任務上的表現,還顯著改善了其泛化能力。例如,僅在RoboSpatial數據集上訓練的模型,在完全不同的RefSpatial數據集上仍能達到34.3%的準確率,而其他方法幾乎無法完成任務。這種跨域遷移能力表明,通過工具使用學到的空間推理技能具有更廣泛的應用潛力。
從技術趨勢來看,SpaceTools代表了AI從單一模型向模塊化系統架構的轉變。這種設計允許系統的不同部分獨立優化,同時保持整體協調性,類似于微服務架構在軟件開發中的應用。其結構化的推理流程和工具調用記錄,也為AI決策的可解釋性提供了新思路。
盡管當前方法仍存在計算資源需求較高、對長期任務規劃支持有限等挑戰,但其成功為AI工具使用能力的發展樹立了新標桿。隨著Toolshed平臺的開源發布,更多研究者和開發者將能夠基于這一框架探索更廣泛的應用場景,推動AI技術向更智能、更實用的方向邁進。











