在空間智能領域,一場悄然發生的變革正引發全球關注。商湯科技最新開源的SenseNova-SI模型,以超越李飛飛團隊Cambrian-S的成績,成為首個在多項基準測試中登頂的國產開源AI。這一突破不僅標志著中國科技公司在前沿技術領域的崛起,更預示著AI發展范式正在經歷深刻轉型。
商湯科技聯合創始人、首席科學家林達華在深度訪談中指出,當前AI行業正站在十字路口。過去三年,以Scaling Law為核心的"大力出奇跡"模式主導了技術演進,但2024年下半年以來,這種路徑的邊際效應顯著遞減。他直言:"模型分數仍在攀升,但對物理世界的理解能力卻停滯不前,這種增長已觸及天花板。"
這種判斷與OpenAI前首席科學家Ilya Sutskever提出的"Back to Research"理念不謀而合。林達華團隊選擇了一條更具挑戰的道路:放棄參數競賽,轉而攻克原生多模態與空間智能的底層技術。他們研發的NEO架構,從Transformer Block層面實現視覺與語言信號的深度融合,通過混合注意力機制讓模型在推理時同步處理圖文信息,徹底顛覆了傳統拼接式架構的降維處理模式。
技術突破帶來的效果立竿見影。SenseNova-SI在空間推理、三維建模等核心指標上全面領先,數據效率較同類模型提升10倍。更引人注目的是其訓練方式創新——通過跨視角預測任務,讓模型自主構建三維空間認知,這種"教AI搭積木"的訓練方法,使其能準確識別手指數量、預測物體多視角形態,解決了長期困擾行業的"視覺幻覺"問題。
技術突破的價值最終要體現在應用層面。林達華強調"工業紅線"概念:任何技術若使用成本高于創造價值,就難以實現規模化落地。為此,商湯在實時語音驅動數字人產品SekoTalk中,通過算法蒸餾技術將擴散模型推理步數從100步壓縮至4步,實現64倍速度提升。這意味著消費級顯卡即可實時生成高質量數字人視頻,為直播、短視頻等場景開辟了商業化新路徑。
這場變革正在重塑AI技術生態。商湯的雙輪驅動戰略——底層創新與落地優化并重——已顯現成效。NEO架構與SenseNova-SI的開源,為全球研究者提供了全新范式;而SekoTalk等產品的極致優化,則證明了技術突破能快速轉化為生產力。林達華特別指出,中國完整的工業體系和豐富應用場景,為空間智能等前沿領域提供了得天獨厚的發展土壤。
對于年輕研究者,林達華給出建議:跳出擁擠的大語言模型賽道,關注具身智能、AI for Science等新興領域。他強調:"智能不只有語言維度,AI的終極目標是構建能理解物理世界的模型。"在這場從"讀萬卷書"到"行萬里路"的技術遷徙中,中國科技公司已占據先機,而真正的突破,將屬于那些敢于探索未知領域的創新者。











