在新加坡南洋理工大學(xué)的實驗室里,一只機(jī)械臂正反復(fù)嘗試抓取桌上的蘋果。這個看似簡單的動作,暴露了當(dāng)代機(jī)器人技術(shù)的核心困境——當(dāng)人工智能在虛擬世界中攻克語言、圖像與代碼時,物理世界的交互仍像一道難以逾越的屏障。就像三歲的孩童能本能地抓取物體,而最先進(jìn)的機(jī)器人系統(tǒng)卻常因蘋果滾落桌面而陷入停滯,這種反差揭示了具身智能領(lǐng)域最根本的挑戰(zhàn):如何讓機(jī)器從“理解世界”跨越到“真正行動”。
王子為的科研軌跡,正是這場跨越“知行鴻溝”探索的縮影。2016年,AlphaGo與李世石的圍棋對決點燃了全球?qū)θ斯ぶ悄艿南胂螅@位清華大學(xué)物理系的學(xué)生由此轉(zhuǎn)向AI研究。但真正推動他深入具身智能領(lǐng)域的,是2020年英國利物浦大學(xué)開發(fā)的“機(jī)器人化學(xué)家”——這個能在實驗室自主移動、操作儀器的系統(tǒng),讓他意識到算法與物理世界結(jié)合的巨大潛力。同年,他開始探索AI與機(jī)器人的融合,首次調(diào)試機(jī)械臂完成打包任務(wù)時,那種“讓機(jī)器像人一樣行動”的成就感,成為他科研生涯的重要轉(zhuǎn)折點。
在卡內(nèi)基梅隆大學(xué)(CMU)的博士后經(jīng)歷,讓他對機(jī)器人研究的節(jié)奏有了全新認(rèn)知。與純AI領(lǐng)域“算法迭代以月為單位”的快速驗證不同,機(jī)器人研究的周期被物理世界的復(fù)雜性無限拉長。采集數(shù)據(jù)需要實時操作硬件,訓(xùn)練模型要應(yīng)對硬件差異,驗證算法需考慮物理規(guī)律——每個環(huán)節(jié)都充滿不確定性。他參與的樂高積木組裝項目,從2023年啟動到2025年才取得突破,期間團(tuán)隊花費(fèi)數(shù)年時間優(yōu)化系統(tǒng)對模糊指令的理解、三維模型生成、動作規(guī)劃與執(zhí)行精度。這種“慢工出細(xì)活”的過程,反而讓他沉淀出對關(guān)鍵問題的洞察:當(dāng)機(jī)器人遇到訓(xùn)練數(shù)據(jù)中未覆蓋的場景時,如何突破模仿學(xué)習(xí)的局限?
以“抓蘋果”任務(wù)為例,當(dāng)前主流模型能完成標(biāo)準(zhǔn)場景下的抓取,但若蘋果滾落桌面,系統(tǒng)常因缺乏應(yīng)對“分布外情況”的能力而失效。王子為指出,這暴露了行業(yè)面臨的三大挑戰(zhàn):真實物理環(huán)境的數(shù)據(jù)采集成本高昂,每條數(shù)據(jù)需數(shù)十秒甚至更久;毫米級誤差可能導(dǎo)致任務(wù)失敗,精度要求遠(yuǎn)超虛擬世界;摩擦、光照等環(huán)境變量的微調(diào)會徹底改變動作效果,模型需實時建模這些隱性參數(shù)。這些難題共同構(gòu)成了具身智能的“阿喀琉斯之踵”。
針對這些挑戰(zhàn),他的團(tuán)隊正探索三條技術(shù)路徑。第一條是構(gòu)建“世界模型”,讓機(jī)器人在虛擬環(huán)境中預(yù)演動作后果,通過“想象”生成訓(xùn)練數(shù)據(jù),降低對真實數(shù)據(jù)的依賴。第二條是引入推理鏈機(jī)制,將長程任務(wù)拆解為步驟序列——類似大語言模型的思維鏈,但需同時處理物體間的空間關(guān)系與動作間的時間邏輯。第三條則更具顛覆性:用強(qiáng)化學(xué)習(xí)讓機(jī)器人主動探索環(huán)境,甚至通過“故意犯錯”積累經(jīng)驗。例如,機(jī)器人可能主動將蘋果推落桌面,在嘗試抓取的過程中學(xué)習(xí)應(yīng)對策略,從而擺脫對人類示范數(shù)據(jù)的依賴。
這種從“被動模仿”到“主動探索”的轉(zhuǎn)變,標(biāo)志著機(jī)器人向智能體(Agent)的進(jìn)化。近期研究顯示,通過強(qiáng)化學(xué)習(xí)訓(xùn)練的機(jī)器人在某些任務(wù)中已能達(dá)到近100%的成功率,遠(yuǎn)超純模仿學(xué)習(xí)系統(tǒng)。王子為團(tuán)隊開發(fā)的ThinkBot和VLA-Reasoner等模型,正嘗試用蒙特卡洛搜索樹與強(qiáng)化學(xué)習(xí)優(yōu)化任務(wù)拆解方案,讓機(jī)器人自主尋找最優(yōu)行動路徑。
在南洋理工大學(xué)的實驗室里,機(jī)械臂的訓(xùn)練仍在繼續(xù)。盡管系統(tǒng)仍會因意外情況失誤,但每次失敗都為模型提供新的學(xué)習(xí)樣本。王子為認(rèn)為,在這個充滿不確定性的領(lǐng)域,研究者需要“熱情與快速學(xué)習(xí)能力”的雙重特質(zhì):“頂級研究者必須成為細(xì)分領(lǐng)域最了解問題的人,而每前進(jìn)一步都要面對未知挑戰(zhàn)。只有真正熱愛這個領(lǐng)域、能從突破中獲得成就感的人,才能堅持下去。”
為保持團(tuán)隊對前沿的敏感度,他推動“論文快講會”制度,要求成員每周快速總結(jié)最新研究進(jìn)展。在應(yīng)用層面,團(tuán)隊正與汽車、航空維保、物流等行業(yè)合作,通過真實工業(yè)場景采集高質(zhì)量數(shù)據(jù),為機(jī)器人模型訓(xùn)練提供基礎(chǔ)。盡管具身智能距離通用機(jī)器人系統(tǒng)仍有距離,但這種跨學(xué)科合作與持續(xù)探索,正在逐步縮小“知道”與“做到”之間的差距。









