在第三方空間推理評測平臺SpatialBench公布的最新榜單中,阿里旗下千問視覺模型系列包攬前兩名。其中Qwen3-VL以13.5分領跑,Qwen2.5-VL以12.9分緊隨其后,較第三名Gemini3.0 Pro Preview的9.6分和第四名GPT-5.1的7.5分形成顯著優勢,距離人類基準線80分再獲突破性進展。
該榜單聚焦2D/3D空間認知、結構解析與路徑規劃能力,涵蓋電路故障診斷、CAD工程圖紙解析、分子三維構型預測等20余類復雜任務,被業界視為評估具身智能發展水平的核心指標。測試場景不僅包含靜態空間分析,更延伸至動態環境下的實時推理需求。
技術突破方面,Qwen3-VL通過三項核心升級構建競爭優勢。其3D檢測模塊新增旋轉框輸出與深度估計雙任務頭,在遮擋場景下的平均精度(AP)提升18%,可精準識別物體空間方位并感知視角變化。視覺編程功能支持用戶輸入手繪草圖或10秒短視頻,自動生成可執行的Python+OpenCV代碼,實現從視覺輸入到功能實現的閉環。模型矩陣方面,除提供2B至235B參數的密集模型外,還推出30B-A3B、235B-A22B等混合專家(MoE)架構版本,其中推理版在32項核心能力測試中平均領先Gemini2.5 Pro達6.4分。
開源策略上,Qwen2.5-VL已實現全量代碼與模型權重開源,開發者可自由調用基礎能力。Qwen3-VL計劃于2025年第二季度開放完整工具鏈,同步在千問官方應用中提供免費體驗入口。這種階梯式開放模式既保障技術生態建設,又為中小企業提供低成本驗證機會。
商業化落地進程加速推進。阿里云披露,Qwen3-VL已在物流分揀機器人、AR設備裝配指導、自動化港口調度等場景完成概念驗證(POC),其空間定位精度達到厘米級(誤差<2cm)。特別在動態環境適應性測試中,模型可實時處理多攝像頭輸入并生成控制指令,較傳統方案效率提升40%。2026年將推出"視覺-動作"端到端模型,通過整合視覺感知與運動控制模塊,為工業機器人提供毫秒級響應的視覺伺服能力,重點突破復雜環境下的自主操作瓶頸。





