對層次豐富、復(fù)雜空間世界的深刻理解,正是具身智能(包括機(jī)器人)的“大腦”。空間智能不僅完善了感知–行動閉環(huán),還將提升我們的認(rèn)知能力:例如我們?nèi)绾卧谀X中想象世界、如何進(jìn)行建模。
在AI時代,信任絕不能外包給機(jī)器——它本質(zhì)上屬于人類,存在于個體、社區(qū)與社會層面。
確定無疑的簡單任務(wù)與充滿不確定性的任務(wù),有時難度相當(dāng);那就選擇更不確定的那一條,因?yàn)樵诓淮_定中,創(chuàng)造力會被逼至極限,奇跡才能發(fā)生。
李飛飛曾是Stanford Human-Centered AI Institute的創(chuàng)始主任,如今是World Lab的聯(lián)合創(chuàng)始人兼首席執(zhí)行官,在空間智能領(lǐng)域引領(lǐng)創(chuàng)新。本次訪談是2025 Masters of Scale Summit的一部分,她與主持人Reid Hoffman探討了空間智能新階段。
從語言邊界到世界建模:AGI與空間智能的下一篇章
Ried:大家好,本周我們邀請到了李飛飛參與現(xiàn)場對談,探討AI的現(xiàn)狀與未來走向。我們已經(jīng)一起做了多次這樣的特別分享,令人振奮又深感榮幸,感謝您的到場。
顯而易見,所有關(guān)注你職業(yè)軌跡的人都知道,你是這波AI浪潮中的OG:從ImageNet等奠基性工作開始,你的貢獻(xiàn)奠定了今日的基礎(chǔ)——在此先向你致謝。如今你正專注于空間智能(spatial intelligence)與世界建模(world building)。我想請你分享:是什么促使你從自己深愛的工作——在Stanford CS和Human-Centered AI的崗位上暫時休假,去創(chuàng)辦這家公司?你們正在做什么?
李飛飛:再次感謝你的邀請,我很榮幸站在這里。你剛才提到的那家我共同創(chuàng)立并擔(dān)任CEO的公司叫World Labs。你是OpenAI最早的支持者和投資人之一。當(dāng)OpenAI成立時,我們曾談到AGI的夢想。作為一名AI科學(xué)家,我常在AI與AGI這兩個詞之間搖擺,因?yàn)槠查_語言差異,它們對我而言幾乎是同一個概念。
Ried:我使用AGI來制造我們還沒有發(fā)明的AI。
李飛飛:我想其實(shí)John McCarthy對AGI的理解也許和我相同:AGI意味著機(jī)器獲得與人類相當(dāng)、甚至在許多情況下能夠超越人類的智能。我把它視作通往未來的一扇大門;這扇門上有許多鑰匙孔,而語言就是其中最關(guān)鍵的一把,因?yàn)檎Z言是智能的核心組成部分。在斯坦福,還有一個獨(dú)特的跨學(xué)科項(xiàng)目Symbolic Systems,融合了哲學(xué)、認(rèn)知科學(xué)與計(jì)算機(jī)科學(xué),正是這種多學(xué)科視角讓我們得以更深入理解智能本質(zhì)。
Wittgenstein認(rèn)為語言定義了世界的邊界,而我并不完全認(rèn)同這一點(diǎn)。我認(rèn)為語言只是界定了一個用符號形式描述世界的層級邊界,但在此之外,世界本身是無限的。那么那個世界究竟是什么?我們?nèi)绾稳ザx它?這和智能有何關(guān)聯(lián)?我們又怎樣借助機(jī)器去表達(dá)它?我非常著迷于這一整套世界建模的思考。
世界建模與語言密切相關(guān),但它關(guān)乎的是對世界狀態(tài)變化的表達(dá)、表征,最終還要親身參與這些變化。這個世界既可能是虛擬的,也可能是物理的。那么,世界建模究竟包含什么?它當(dāng)然包含語言,因?yàn)檎Z言是與世界對話的一種方式,但它同樣涵蓋視覺、光線、語義、空間以及物理動作。所有這些仍處于起步階段,而這正是人工智能的下一階段,也是World Labs的目標(biāo)所在。我們正在努力進(jìn)行世界建模,嘗試把這種層次的空間智能帶入人工智能的下一個篇章。
世界建模:賦予無限可能的應(yīng)用版圖
Ried:我有兩個問題。第一,現(xiàn)場少數(shù)人對這一領(lǐng)域已頗為深入,但多數(shù)人日常體驗(yàn)大型語言模型仍停留在ChatGPT、Gemini等產(chǎn)品。那么,他們應(yīng)當(dāng)如何理解空間智能與此的差異?關(guān)鍵不僅在于認(rèn)知能力的不同——因?yàn)槲覀兊氖澜绮⒉恢挥烧Z言構(gòu)成。第二,未來道路將如何展開?為了真正抵達(dá)那里,我們需要克服哪些挑戰(zhàn)?
李飛飛:當(dāng)真正擁有世界建模能力時,我們將獲得前所未有的創(chuàng)造自由。如今,苗頭已初現(xiàn):無數(shù)講故事的人和創(chuàng)作者正跨越像素、電影、雕塑、數(shù)字藝術(shù)等多重媒介,構(gòu)建高度創(chuàng)意、可交互的沉浸式世界。世界建模不僅允許我們生成事物,更能生成可置身其間、可互動的整座世界,這對創(chuàng)作者而言極具吸引力。其應(yīng)用場景遠(yuǎn)不止娛樂和敘事——它同樣適用于設(shè)計(jì)、工業(yè)、醫(yī)療健康乃至教育等各個領(lǐng)域。
被動娛樂與主動親歷體驗(yàn)之間的距離正迅速縮小。機(jī)器憑借世界建模生成沉浸式體驗(yàn)的能力極其強(qiáng)大,這也自然延伸至仿真。仿真對人類體驗(yàn)與學(xué)習(xí),以及具身AI(embodied AI)都至關(guān)重要:機(jī)器人既要在現(xiàn)實(shí)世界中學(xué)習(xí),也必須在仿真環(huán)境中歷練。回顧機(jī)器人史,從自動駕駛汽車到各種自啟動系統(tǒng),仿真始終扮演關(guān)鍵角色;由此來看,其應(yīng)用空間是無邊無際的。
空間智能與世界建模:完善感知-行動的閉環(huán)與具身智能
Ried:機(jī)器人技術(shù)始終是熱議話題。我想向所有人劃出一條重點(diǎn):世界建模對任何旨在提升機(jī)器人服務(wù)人類福祉的工作都至關(guān)重要。能否請你闡釋一下,為何這套認(rèn)知能力如此關(guān)鍵?
李飛飛:這是個好問題。我為此思考了很久。坦白說,在計(jì)算機(jī)視覺的第一波浪潮中,當(dāng)我們已經(jīng)達(dá)到了前所未有的精度與質(zhì)量,我反而陷入了小小的危機(jī),開始反省:感知究竟意味著什么?視覺到底有何使命?我原以為解決目標(biāo)識別至少需要一百年,結(jié)果進(jìn)展遠(yuǎn)比預(yù)想迅速。于是,我需要新的“北極星”,這把我拉回到進(jìn)化論。
大約5.3億年前,地球發(fā)生了一場驚人的進(jìn)化事件——寒武紀(jì)大爆發(fā);動物物種在那段時期急劇分化,神經(jīng)系統(tǒng)與光敏細(xì)胞也隨之萌芽。當(dāng)我讀完眾多資料并加以深思,這一切突然令我豁然開朗。動物之所以在進(jìn)化上發(fā)展出感知,根本原因是為了行動與互動;感知本質(zhì)上是主動的,而非被動接受訊息。由此可見,感知智能構(gòu)成了一切運(yùn)動的基石。最初的運(yùn)動不過是把身體簡單地挪到另一處;轉(zhuǎn)瞬間,運(yùn)動便演化成更復(fù)雜的互動——從爭奪食物、交配、筑巢到撫育后代,無所不包。以哺乳動物乃至人類為例,我們的運(yùn)動能力極其精細(xì):僅手指、腳趾、軀干之間就擁有極高的自由度。所有這些動作都依賴于我們對所處環(huán)境的空間智能與根本感知——唯有如此,我們才能理解周圍世界并規(guī)劃每一步行動。在我看來,對層次豐富、復(fù)雜空間世界的深刻理解,正是具身智能(包括機(jī)器人)的“大腦”。
Ried:實(shí)際上,機(jī)器人讓我們真切體會到:要讓機(jī)器真正具身,就必須賦予它們具身智能。這與我們剛才談到維特根斯坦時的觀點(diǎn)遙相呼應(yīng)——世界中的認(rèn)知推理能力絕不僅限于語言層面。雖然這有點(diǎn)哲學(xué)意味,但面向未來,空間智能會帶來其他形式的智能,同樣關(guān)鍵。傳統(tǒng)西方把“感知”視作攝像機(jī)、把“行動”當(dāng)作獨(dú)立模塊的觀念顯然站不住腳,你剛才也指出了這一點(diǎn)。空間智能不僅完善了感知–行動閉環(huán),還將提升我們的認(rèn)知能力:例如我們?nèi)绾卧谀X中想象世界、如何進(jìn)行建模。那么,當(dāng)我們?yōu)樗蠥I系統(tǒng)引入空間智能后,你認(rèn)為會涌現(xiàn)出哪些新的推理特征?
李飛飛:縱觀人類文明的發(fā)展史,很多關(guān)鍵里程碑根本無法僅靠語言完成;空間推理與世界建模的重要性一目了然。以早期的金字塔建造為例:我們必須先抽象出幾何概念,形成對幾何的敏銳直覺,再推進(jìn)巨型結(jié)構(gòu)的建造。整套過程蘊(yùn)含極其豐富的認(rèn)知級空間推理,遠(yuǎn)遠(yuǎn)超越“看見某物、就把它搬過去”這類簡單的事務(wù)性動作。再舉一個例子:DNA結(jié)構(gòu)的推斷過程。本質(zhì)上,眾多科學(xué)家都在通過各類線索意識到遺傳物質(zhì)里隱藏著某種關(guān)鍵結(jié)構(gòu),但真正的突破,源于Rosalind Franklin拍攝的X射線衍射圖像——一幅扁平的“十字”狀照片。正是基于這幅圖,F(xiàn)rancis Crick和James Watson才推演出DNA雙螺旋的三維交織結(jié)構(gòu)。這一跨越完全依賴深度的空間推理:單靠語言絕不可能演繹出這樣的形態(tài)(當(dāng)然語言依舊是輔助工具,我本人也熱愛語言)。這恰恰是人類利用空間認(rèn)知能力,完成前所未有發(fā)現(xiàn)的經(jīng)典范例。因此,當(dāng)我們?yōu)锳I賦予這類空間智能,它的價(jià)值絕不限于讓機(jī)器人拾取杯子或方塊,而是能整體提升人類能力——我們將與具備此能力的機(jī)器協(xié)同,共同開拓全新的認(rèn)知與創(chuàng)造空間。
AI產(chǎn)業(yè)化:信任絕不能外包給機(jī)器
Ried:接下來我們從宏觀層面聊聊:如今關(guān)于AI的討論很多——到底是被過度炒作還是被低估?在硅谷,幾乎所有人都覺得低估;也有人擔(dān)心,我們是否會迎來下一輪AI寒冬。你怎么看當(dāng)前這場爭論?哪些領(lǐng)域其實(shí)被嚴(yán)重低估,哪些方向可能還為時過早,又有哪些點(diǎn)確實(shí)被吹過頭了?請分享你的洞見,幫大家分辨真?zhèn)蝺?yōu)劣。
李飛飛:我必須謹(jǐn)慎作答,我相信AI是一項(xiàng)文明級技術(shù)。即便靈感源于人類進(jìn)化,任何能復(fù)制人類核心思考與行動能力的技術(shù),都足以引發(fā)顛覆性變革。在我看來,作為人類智力未來的基石,AI并未被過度炒作,因?yàn)锳I已成為新的計(jì)算范式。放眼當(dāng)今世界,思考芯片所在之處——從燈泡到自動駕駛汽車,再到飛機(jī)——芯片無處不在;芯片是計(jì)算發(fā)生的物理載體。顯而易見,只要有芯片就有計(jì)算,只要有計(jì)算,AI遲早會出現(xiàn)。因此,無論從商業(yè)層面還是應(yīng)用場景來看,AI都毫無疑問代表未來。
舉例來說,塞巴斯蒂安·特倫的第一輛自動駕駛汽車,從能夠在沒有交通的內(nèi)華達(dá)沙漠中行駛130英里,到如今在舊金山街頭跑得更遠(yuǎn),整整花了二十多年。你可能會說,這部分是因?yàn)楫?dāng)時的軟件還停留在深度學(xué)習(xí)出現(xiàn)之前的階段,軟件開發(fā)進(jìn)展較慢。確實(shí),深度學(xué)習(xí)后來加速了自動駕駛汽車的“大腦”,但別忘了,汽車產(chǎn)業(yè)及其完整的供應(yīng)鏈和消費(fèi)者基礎(chǔ)已經(jīng)存在百余年,擁有極其成熟的商業(yè)模式、基礎(chǔ)設(shè)施和制造體系。因此,僅僅讓汽車這種道路上最簡單的機(jī)器人形態(tài)實(shí)現(xiàn)自動駕駛,就耗費(fèi)了二十年的光陰。
嚴(yán)格來講汽車不過是一個在二維平面上移動的方盒子,你唯一要確保的就是別撞到任何東西。可機(jī)器人就完全不同:機(jī)器人是一臺三維機(jī)器,它的核心任務(wù)就是“觸碰”,而且要“正確地觸碰”。這其中的復(fù)雜度非常高,所以我認(rèn)為機(jī)器人技術(shù)的發(fā)展之路還很長。
Ried:百分之百同意。要讓這項(xiàng)文明級技術(shù)真正落地,關(guān)鍵在于建立信任。不論是依靠技術(shù)專家、公司,還是其他主體——作為行業(yè)領(lǐng)袖、企業(yè)和創(chuàng)業(yè)者,我們應(yīng)當(dāng)采取哪些舉措來促成這份信任?畢竟只有在信任建立之后,我們才能真正享受到AI帶來的價(jià)值。
李飛飛:在AI時代,信任絕不能外包給機(jī)器——它本質(zhì)上屬于人類,存在于個體、社區(qū)與社會層面。也正因如此,我們早在2018年就成立了Stanford Human-Centered AI Institute,遠(yuǎn)在這波AI浪潮全面爆發(fā)之前。我們意識到:隨著機(jī)器在計(jì)算、推理乃至行動能力上的持續(xù)增強(qiáng),必須把新的規(guī)范織入社會肌理。在這種規(guī)范下,人類仍然有能力通過AI更新的工具、聊天機(jī)器人等更強(qiáng)大的產(chǎn)品來建立彼此之間的信任。最終,這份信任還需被納入并迭代我們的治理模型,不僅關(guān)乎社區(qū)與企業(yè),更關(guān)乎整個社會。因此,我認(rèn)為信任在這場變革中至關(guān)重要。
我們的觀眾大多是創(chuàng)業(yè)者。我想強(qiáng)調(diào):從一開始就要重視信任。無論你們開發(fā)的是何種產(chǎn)品或業(yè)務(wù),都要牢記這一點(diǎn)。有些人身處醫(yī)療健康領(lǐng)域,深知信任的分量;有些人專注于基礎(chǔ)設(shè)施或其他看似距離用戶較遠(yuǎn)的應(yīng)用,但別忘了,你們同樣在服務(wù)個人和企業(yè)。信任至關(guān)重要,而其根源始終來自人的主動性。
無畏精神:創(chuàng)新者的北極星
Ried:你和Etch主導(dǎo)的那項(xiàng)以人為本的AI工作(源于《紐約時報(bào)》的專欄)促使我開始明白我們必須貫徹的核心要務(wù)之一就是提升人類的主體性。那我們就以科學(xué)視角來結(jié)束今天的對談吧。你曾說,科學(xué)家必須保持“智識上的無畏”——也就是心懷無所畏懼的精神。這對我們構(gòu)想未來意味著什么?又對科學(xué)在下一代創(chuàng)新者的推進(jìn)方式有何啟示?無畏精神應(yīng)在其中扮演怎樣的角色?
李飛飛:這是個好問題。如果說科學(xué)家需要無畏,創(chuàng)業(yè)者就更要無畏。我非常喜歡Fearless這個詞,也把它作為招聘時的重要標(biāo)準(zhǔn),尤其希望年輕人擁有這種無畏精神。Fearless的含義是自由——擺脫束縛創(chuàng)造力、勇氣和執(zhí)行力的枷鎖。順帶一提,“get shit done”在我們公司是一種“技術(shù)術(shù)語”,也是核心文化的一部分。
你知道,人類并非地球上速度最快或力量最強(qiáng)的生物。今年夏天,我?guī)Ш⒆尤チ朔侵蓿抢镉性S多動物在各方面都遠(yuǎn)勝于我們。但在我們的頭腦、心靈與靈魂深處,存在一種力量,能驅(qū)動我們?yōu)槭澜纭樽约骸楸舜藙?chuàng)造非凡價(jià)值。這股力量源于人類獨(dú)特的創(chuàng)造力與社群意識。要真正釋放它,尤其在技術(shù)高速迭代的時代,更需無畏前行。
對我而言,最根本的情感準(zhǔn)則是:保持創(chuàng)造力,保持自由——而這最終化作無畏。要勇敢沖向未知,擁抱那些前所未有的大膽想法,并讓它們落地;要敢于驗(yàn)證唱反調(diào)的假設(shè),投身最艱難的任務(wù)。有人說過(我忘了是誰):確定無疑的簡單任務(wù)與充滿不確定性的任務(wù),有時難度相當(dāng);那就選擇更不確定的那一條,因?yàn)樵诓淮_定中,創(chuàng)造力會被逼至極限,奇跡才能發(fā)生。我鐘愛“無畏”這句話,正因其所在之處,邊界被打破,創(chuàng)意被釋放,魔法隨之顯現(xiàn)。











