在人工智能領域,王曉剛的名字與諸多突破性進展緊密相連。十一年前,他與湯曉鷗攜手推動計算機視覺識別率首次超越人類肉眼,開啟了人工智能1.0時代的大門。彼時,視覺技術從實驗室走向安防、手機和汽車等實際應用場景,為行業帶來深遠影響。如今,當大語言模型引發全球狂歡,具身智能正被視為下一片人工智能高地,王曉剛卻敏銳地察覺到行業面臨的潛在危機——互聯網語料資源逐漸枯竭,純粹的數字世界發展已接近天花板。
2025年,具身智能成為科技競爭的焦點,各大玩家紛紛押注通用“機器管家”的研發。然而,現實卻充滿挑戰:多數機器人僅能在精心設計的視頻中展示高光時刻,一旦進入真實雜亂的環境,便因缺乏常識而陷入困境。這種“冰火兩重天”的局面,既源于資本的狂熱追捧,也受制于技術落地中的“數據荒”與“物理幻覺”瓶頸。王曉剛直言,現有研究范式已走入死胡同,若繼續以“機器”為中心訓練大腦,具身智能將永遠停留在演示階段。
從人工智能1.0到3.0的躍遷,王曉剛提出了清晰的路徑。1.0時代以視覺技術為核心,依賴人工標注和小模型實現應用;2.0時代則由大語言模型驅動,通過海量語言文字數據提取人類沉淀的智能。然而,互聯網語料的價值將在未來兩三年內被“榨干”,這迫使行業必須突破數字與物理世界的界限。具身智能通過與物理環境交互產生新智能,成為通往3.0時代的關鍵。王曉剛的新身份——大曉機器人董事長,正是為了推動這一轉型。他希望將商湯在軟件與行業賦能上的經驗,與具身智能的軟硬一體整合相結合,完成產業鏈的垂直布局。
大曉機器人與商湯的分工緊密而明確。前者提供具身智能的軟件與硬件平臺,后者則利用其業務團隊的行業洞察力開發具體應用。例如,雙方聯合推出的“具身超級大腦模組A1”,搭載于四足機器人后,可實現戶外自主導航,無需依賴高精度地圖。這一過程中,機器人采集的視頻數據與商湯的“方舟平臺”打通,直接調用超過150種AI應用,極大拓展了機器人的實用價值。王曉剛強調,這種合作模式解決了具身智能落地的核心難題——場景理解不足。
研究范式的革命是2025年的另一大突破。傳統以機器為中心的VLA(視覺-語言-行動)模式,因數據共享困難和采集效率低下而陷入困境。王曉剛團隊提出的“環境式采集”技術,通過第一視角穿戴設備與第三視角傳感器,在人類真實生產環境中記錄行為數據。這種以人為中心的方法,不僅將數據量級從十萬小時提升至千萬小時,更解決了上萬種物品抓取的難題。例如,在杭州的閃購倉試點中,工作人員佩戴設備工作10小時即可采集同等時長數據,效率較傳統遙操作提升100倍,成本大幅降低。
數據質量的把控依賴于自動化流程。系統會提取肢體3D姿態、手部手勢、物品種類與形狀、交互關系及材質信息等關鍵數據。例如,抓取瓶子時,系統會記錄摩擦力、受力情況等細節,為世界模型的訓練提供豐富素材。王曉剛透露,即將發布的“開悟3.0”世界模型平臺,正是基于這些數據構建。該平臺支持“一腦多形”,即同一模型適配不同機器人本體,通過生成針對特定本體的視頻和3D軌跡數據,實現跨本體復用。
與市面上其他世界模型相比,“開悟3.0”在物理規律表達上具有顯著優勢。傳統模型如Sora常出現“水倒進水槽但杯子卻滿”的物理幻覺,而“開悟3.0”通過底層物理常識約束,將成片率提升至50%以上。這一突破得益于對物體與環境解耦技術的運用——模型可分離桌子上的電腦、水杯等物體,并編輯其屬性,從而拓展數據泛化性。王曉剛表示,這種對物理世界的深刻理解,是機器人具備通用智能的關鍵。
開源戰略與國產芯片適配是大曉機器人的另一大布局。此次“開悟3.0”將開源模型、工具鏈及部署方法,并適配沐曦、海光、壁仞等國產芯片。通過軟硬協同優化,芯片性能可達到英偉達A卡水平,為構建物理世界的“DeepSeek時刻”奠定基礎。王曉剛認為,開源不僅能擴大模型影響力,還能通過云服務API實現商業化閉環。長期來看,先發優勢將吸引芯片公司主動適配,形成生態聚集效應。
在產品落地層面,大曉機器人規劃了清晰的路徑。近期重點推廣戶外四足機器人,應用于電力巡檢、文旅和智慧城市等領域;中期目標是在兩年內攻克前置倉場景,利用其標準化特點實現快速規模化;遠期則瞄準家庭場景,盡管目前仍處于預研階段。王曉剛透露,具身超級大腦模組A1已引入Insta360全景相機,解決傳統機器人攝像頭視野窄、畫質差的問題,為夜間作業和AI識別提供支持。
“大曉”之名,既源于王曉剛與首席科學家陶大程的師兄弟情誼,也蘊含更深層的寓意——“大千世界,曉識萬象”。這一名稱不僅體現了世界模型理解物理世界的目標,也呼應了環境式采集感知人與環境交互的核心理念。在這場從數字世界向物理世界跨越的征程中,王曉剛與他的團隊正以全新的范式,探索人工智能的無限可能。









