谷歌旗下DeepMind團隊近日發布了一款名為SIMA2的多模態智能體研究預覽版,該系統基于Gemini2.5Flash-lite架構開發,在未接觸過的復雜環境中執行指令的成功率較前代提升近一倍,同時展現出通過自我優化持續提升性能的能力。研究團隊強調,此次發布的核心目標是驗證構建通用機器人與通用人工智能(AGI)所需的高層次環境理解與推理機制。
在技術實現層面,SIMA2延續了利用數百小時游戲視頻進行預訓練的策略,但創新性地引入了自生成數據閉環系統。當智能體進入新場景時,會調用獨立的Gemini模型批量生成多樣化任務,隨后通過內置的獎勵模型評估任務完成質量,篩選優質軌跡數據用于持續微調。這種無需人工標注的自主學習機制,使系統在《無人深空》等測試場景中能夠通過解析環境文本、識別顏色符號等視覺信息,自主執行"前往紅色建筑"或"采集特定資源"等復雜指令,甚至支持由emoji組合構成的抽象指令。
演示實驗中,研究團隊結合生成式世界模型Genie為SIMA2動態創建逼真的戶外場景。智能體不僅準確識別出長椅、樹木、蝴蝶等環境元素,還能根據指令與這些對象產生交互。高級研究科學家簡·王指出,這種"環境感知-目標推斷-動作規劃"的完整決策鏈,正是將虛擬環境訓練成果遷移至實體機器人的關鍵技術模塊。通過模擬環境中的反復驗證,團隊希望為真實機器人系統構建可復用的認知框架。
值得注意的是,當前版本的SIMA2專注于高層次決策能力的開發,暫未涉及機械關節控制、運動協調等底層執行技術。DeepMind同時訓練的機器人基礎模型采用完全不同的技術路徑,兩種系統的融合方案仍在探索階段。研究團隊拒絕透露正式版本的發布時間表,但表示希望通過開放預覽版吸引外部合作,共同研究虛擬智能體向物理實體遷移的技術路徑。目前該系統已展現出在動態環境中理解復雜指令的潛力,但其商業化應用仍需突破多項技術瓶頸。












