由銀河通用牽頭,聯合北京大學、阿德萊德大學及浙江大學等多家科研機構,共同研發的全球首款跨本體全域環視導航基座大模型NavFoM(Navigation Foundation Model)正式亮相。該模型首次實現了對視覺與語言導航、目標導向導航、視覺追蹤及自動駕駛等多元機器人導航任務的統一整合,為機器人技術發展開辟了新路徑。
NavFoM的核心突破在于其全場景適應性。無論是室內復雜環境還是室外開放空間,模型均能在未經訓練的新場景中直接運行,無需預先構建地圖或采集環境數據。這一特性大幅降低了技術落地門檻,用戶可直接將模型部署于各類場景,省去傳統方案中耗時費力的前期準備工作。
在任務兼容性方面,NavFoM通過自然語言指令實現多任務協同。從四足機器狗到空中無人機,從輪式人形機器人到自動駕駛車輛,不同形態、尺寸的機器人均可基于同一框架完成目標跟隨、路徑規劃等任務。這種設計顯著提升了機器人的通用性和開發效率。
技術層面,NavFoM引入了兩項創新機制。其一為TVI Tokens(時空視角索引令牌),通過賦予模型時間與方向感知能力,使其能動態理解環境變化;其二為BATS策略(預算感知令牌采樣),在計算資源受限時自動優化模型性能,確保低算力設備也能高效運行。這兩項技術共同解決了傳統導航模型在復雜場景和資源約束下的應用難題。
支撐NavFoM強大能力的,是其構建的跨任務數據集。該數據集包含約800萬條覆蓋多任務、多機器人的導航數據,以及400萬條開放問答數據,規模達同類研究的兩倍。海量數據的訓練使模型在語言理解與空間語義解析方面表現出色,為后續開發特定場景應用提供了堅實基礎。
目前,NavFoM已向開發者開放基礎框架,支持通過微調訓練定制化應用模型。這一創新不僅推動了機器人導航技術的標準化進程,更為智能設備在物流、服務、探索等領域的廣泛應用提供了技術保障。









