在機器人技術不斷發(fā)展的今天,中美兩國在該領域的競爭與合作備受關注。譚捷,作為Google DeepMind機器人團隊的高級研究科學家兼技術負責人,分享了他對機器人領域發(fā)展的獨到見解。譚捷本科畢業(yè)于上海交大,后赴美深造,在計算機圖形學領域取得博士學位,并逐漸將研究興趣轉(zhuǎn)向機器人技術。
譚捷指出,中美在機器人領域的發(fā)展路徑存在顯著差異。中國在硬件制造方面發(fā)展迅速,而美國則在機器人大腦設計上占據(jù)領先地位。他強調(diào),機器人技術的進步不僅依賴于硬件的突破,更需要強大的算法和數(shù)據(jù)處理能力。譚捷認為,機器人與圖形學有著緊密的聯(lián)系,圖形學中的許多技術可以應用于機器人領域,尤其是在仿真和數(shù)據(jù)處理方面。
在談到機器人基座模型的獨立性時,譚捷表示,雖然目前機器人基座模型在很大程度上依賴于多模態(tài)大模型,但未來隨著數(shù)據(jù)量和計算能力的提升,機器人模型可能會發(fā)展出更加獨立的架構。他提到,Google DeepMind團隊最近發(fā)布的Gemini Robotics 1.5,通過引入“思考”機制和跨本體遷移技術,顯著提升了機器人的泛化能力和任務執(zhí)行效率。
譚捷詳細解釋了Gemini Robotics 1.5的兩個重要突破。首先,通過在模型中加入“思考”機制,機器人能夠在執(zhí)行復雜任務時進行多步推理,并將思考過程可視化,增強了人機交互的透明度和安全性。其次,跨本體遷移技術使得不同機器人之間的數(shù)據(jù)可以共享和利用,從而解決了數(shù)據(jù)稀缺的問題。這一技術通過“運動遷移”方法,實現(xiàn)了在不同機器人構型之間的任務遷移,顯著提高了數(shù)據(jù)利用效率。
在數(shù)據(jù)問題上,譚捷強調(diào),機器人領域面臨的最大挑戰(zhàn)之一是數(shù)據(jù)的獲取和質(zhì)量。他指出,真實世界的數(shù)據(jù)獲取成本高昂,而仿真數(shù)據(jù)雖然可以大規(guī)模生成,但存在與現(xiàn)實世界的差距。為了彌補這一差距,譚捷認為,生成式AI技術,如視頻生成模型,將在未來發(fā)揮重要作用。通過生成大量逼真的仿真數(shù)據(jù),可以顯著提升機器人模型的訓練效果和泛化能力。
譚捷還分享了他對機器人架構發(fā)展的看法。他認為,雖然目前分層式模型在短期內(nèi)更具實用性,但端到端的統(tǒng)一模型可能是未來的發(fā)展方向。他提到,Google DeepMind團隊正在積極探索端到端模型的研究,并已經(jīng)在一些實驗中取得了初步成果。譚捷相信,隨著計算能力的提升和算法的優(yōu)化,端到端模型將在未來占據(jù)主導地位。
在談到機器人領域的未來時,譚捷表示,未來兩到三年內(nèi),機器人技術將迎來重要突破,具有泛化能力的機器人將開始在工業(yè)和物流等領域落地應用。然而,要實現(xiàn)機器人在家庭中的廣泛普及,可能需要更長的時間。他預計,未來五到十年內(nèi),機器人將逐漸進入家庭,為人們的日常生活提供幫助。
譚捷還分享了他對中美機器人領域合作的看法。他認為,中美在機器人領域的合作具有巨大潛力,尤其是在硬件制造和算法研發(fā)方面。他指出,中國的硬件制造能力強大,而美國在算法和數(shù)據(jù)處理方面具有優(yōu)勢,雙方的合作將推動機器人技術的快速發(fā)展。
在個人經(jīng)歷方面,譚捷提到,他在Google DeepMind團隊工作了近十年,見證了團隊從最初的幾個人發(fā)展到如今的龐大規(guī)模。他強調(diào),團隊的成功離不開高效的管理和協(xié)作機制,以及公司對長期研究的支持。譚捷表示,他將繼續(xù)致力于推動機器人技術的發(fā)展,為實現(xiàn)通用人工智能(AGI)在物理世界的應用貢獻力量。
譚捷還分享了他的個人愛好和生活狀態(tài)。他喜歡旅游、種花和練賽車,并認為這些愛好有助于緩解工作壓力。他有兩個孩子,大孩子已經(jīng)開始學習編程和機器人技術,小孩子則剛剛出生。譚捷表示,家庭生活讓他更加珍惜時間,也讓他更加專注于工作。










