在空間推理基準測試SpatialBench最新公布的榜單中,阿里旗下千問系列視覺理解模型展現出強勁實力。其Qwen3-VL與Qwen2.5-VL分別以13.5分和12.9分的成績占據前兩位,將Gemini 3.0 Pro Preview(9.6分)、GPT-5.1(7.5分)及Claude Sonnet 4.5等國際主流模型甩在身后。這一結果標志著國產大模型在多模態空間推理領域實現重要突破。
作為評估具身智能發展水平的關鍵指標,SpatialBench通過三維結構解析、路徑規劃、空間關系推理等復雜任務,檢驗模型處理抽象概念與實體空間映射的能力。測試不僅要求模型調用既有知識,更需在二維圖像與三維場景中完成動態推理,這對機器人導航、工業自動化等現實場景具有直接指導意義。目前人類在該測試中的基準線約為80分,遠超現有模型表現,顯示技術仍存在顯著提升空間。
此次登頂的Qwen3-VL于2025年正式開源,其前身Qwen2.5-VL則于2024年開放下載。新一代模型在視覺感知維度實現質的飛躍,通過32項核心能力評估全面超越Gemini2.5-Pro與GPT-5。該模型創新性地整合工具調用能力,可基于圖像內容自動觸發摳圖、搜索等操作,甚至能通過設計草圖或游戲視頻直接生成可執行代碼,實現"視覺編程"功能。
針對機器人場景的優化是Qwen3-VL的另一大亮點。通過強化3D空間檢測模塊,模型可精準識別物體方位、視角變化及遮擋關系。在實物抓取測試中,搭載該模型的機械臂能準確判斷遠處蘋果的空間坐標,完成復雜環境下的精準操作。這種能力在倉儲物流、精密制造等領域具有廣闊應用前景。
為滿足不同開發需求,Qwen3-VL同步開源多個版本,涵蓋2B至235B參數規模,包含密集模型與混合專家(MoE)架構。每個版本均提供指令微調版與推理優化版,形成完整的產品矩陣。目前該系列模型已通過千問APP開放免費體驗,開發者可直接調用API進行二次開發,企業用戶則能基于開源代碼部署定制化解決方案。
據技術文檔披露,Qwen3-VL的訓練數據集包含海量三維場景解析樣本,其神經網絡架構特別設計了空間注意力機制,使模型能像人類般建立"空間記憶"。這種設計顯著提升了模型在動態環境中的推理穩定性,即使在部分遮擋或視角變化的情況下,仍能保持高精度識別。不過研發團隊坦言,當前模型在處理微觀分子結構或復雜電路布局時,仍需依賴專業工具輔助,距離完全替代人類專家尚有差距。





