斯坦福大學(xué)教授、WorldLabs聯(lián)合創(chuàng)始人李飛飛近日發(fā)表長文《從文字到世界:空間智能是AI的下一個前沿》,深入探討了當前人工智能技術(shù)在理解物理世界方面的局限性,并指出空間智能將成為突破這一瓶頸的關(guān)鍵。
李飛飛認為,以大型語言模型為代表的AI系統(tǒng)雖擅長處理抽象知識,卻如同在黑暗中摸索,缺乏對三維世界的真實感知。她將空間智能定義為人類理解、導(dǎo)航并與物理環(huán)境交互的基礎(chǔ)能力,認為這是實現(xiàn)機器真正智能的核心突破口。這種能力不僅關(guān)乎視覺識別,更涉及對空間關(guān)系、物理規(guī)律和動態(tài)變化的深層理解。
文章追溯了AI發(fā)展的歷史脈絡(luò),指出自1950年圖靈提出"機器能否思考"的問題以來,科學(xué)界對智能本質(zhì)的探索從未停歇。當前生成式AI雖已能生成文本、圖像和視頻,但在自主機器人、科學(xué)發(fā)現(xiàn)等需要物理交互的領(lǐng)域仍顯不足。李飛飛以自身25年的AI研究經(jīng)歷為例,強調(diào)從構(gòu)建ImageNet數(shù)據(jù)集到融合計算機視覺與機器人學(xué)習的探索,始終圍繞著空間智能這一核心。
空間智能在人類認知中扮演著支架角色。李飛飛舉例說明,日常停車時的空間判斷、消防員在煙霧中的即時決策、兒童通過互動學(xué)習世界等行為,都依賴這種直觀的空間理解能力。歷史上,埃拉托斯特尼計算地球周長、珍妮紡織機的空間革新、DNA結(jié)構(gòu)的物理建模等重大突破,無不展現(xiàn)了空間智能推動文明進步的力量。
當前AI的空間能力雖取得進展,但仍存在根本局限。多模態(tài)模型雖能分析圖像、生成視頻,卻在距離估算、物體旋轉(zhuǎn)等基礎(chǔ)空間任務(wù)上表現(xiàn)不佳。AI生成的視頻常因缺乏物理連貫性而迅速失真,機器人操作也僅限于高度受限的環(huán)境。李飛飛指出,AI對世界的理解應(yīng)是整體性的,需通過想象、推理和互動來把握空間關(guān)系,而非僅停留在描述層面。
為實現(xiàn)具有空間智能的AI,李飛飛提出構(gòu)建"世界模型"的愿景。這種新型生成模型需具備三大能力:生成性,即創(chuàng)建幾何和物理一致的模擬世界;多模態(tài)性,能處理圖像、視頻、文本等多種輸入;交互性,可根據(jù)操作預(yù)測世界狀態(tài)變化。她強調(diào),世界模型的維度遠超語言模型,需協(xié)調(diào)語義、幾何、動態(tài)和物理等多重約束。
WorldLabs的研究團隊正致力于攻克相關(guān)技術(shù)障礙,包括設(shè)計通用任務(wù)函數(shù)、開發(fā)大規(guī)模訓(xùn)練數(shù)據(jù)算法、探索3D/4D感知架構(gòu)等。近期,團隊發(fā)布了首個可通過多模態(tài)輸入生成一致3D環(huán)境的世界模型Marble,允許用戶在創(chuàng)意流程中探索和互動。這一進展標志著AI向空間智能邁出了重要一步,但李飛飛也承認,要實現(xiàn)人類水平的空間理解,仍需克服諸多挑戰(zhàn)。
空間智能的發(fā)展不僅關(guān)乎理論突破,更將催生新型創(chuàng)意和生產(chǎn)力工具。從醫(yī)療機器人到沉浸式體驗,從材料科學(xué)到日常輔助,具備空間理解能力的AI將深刻改變?nèi)祟惿睢kS著研究推進,這一領(lǐng)域正吸引越來越多研究者、工程師和商業(yè)領(lǐng)袖的關(guān)注,預(yù)示著AI發(fā)展將進入一個全新階段。











