一支跨機構研究團隊近日在人工智能領域取得重要進展,推出名為NitroGen的開源基礎模型。該模型由英偉達、斯坦福大學及加州理工學院等機構聯合研發,其核心突破在于突破傳統大型語言模型(LLM)的邊界,將大規模訓練技術延伸至動作控制領域。研究團隊將其視為構建"行動版GPT"的關鍵嘗試,旨在通過統一框架實現跨游戲環境的智能決策。
模型架構基于為機器人技術設計的GROOT N1.5框架,這種設計選擇實現了雙向技術賦能:既讓模型具備處理復雜動作序列的能力,又為機器人領域提供了新的解決方案。研究論文特別強調,開發能在未知環境中自主運行的通用具身智能體,始終是人工智能領域的核心挑戰之一。NitroGen的跨領域表現,為應對這一挑戰提供了全新思路。
訓練數據采集方面,研究團隊創新性地使用了超過4萬小時的游戲直播實況視頻。這些包含玩家實時手柄操作畫面的素材,為模型提供了豐富的動作決策樣本。通過分析不同游戲類型中的人類操作模式,模型逐漸掌握了"玩家直覺"——這種快速動作控制能力使其在測試中展現出驚人適應性。
實測數據顯示,NitroGen成功駕馭了角色扮演、平臺跳躍、競速等2D/3D游戲類型,在程序生成的游戲環境和全新游戲中,其任務完成率較傳統模型提升52%。這種跨領域優勢源于模型對基礎動作模式的深度理解,而非針對特定游戲的優化。研究負責人指出,這種通用性正是區別于傳統游戲AI的關鍵特征。
開發團隊選擇完全開源的研究路徑,公開了預訓練模型權重、完整動作數據集及源代碼。這種開放策略旨在吸引全球開發者參與優化,特別鼓勵游戲開發者、機器人工程師和AI研究者共同探索模型潛力。目前已有開發者嘗試將其應用于機械臂控制、自動駕駛模擬等場景,初步結果顯示出良好的遷移能力。
盡管首版模型聚焦動作控制領域,但其技術框架已展現出擴展可能性。研究團隊透露,后續版本將探索多模態感知融合,使模型能同時處理視覺、聽覺及觸覺信息。這種發展路徑可能催生出更接近人類認知模式的智能系統,為機器人技術、虛擬現實等領域帶來變革性影響。











