視頻生成領域迎來新突破,可靈近日發布可靈O1模型,同時推出可圖O1、音畫同出模型可靈2.6、可靈數字人2.0以及可靈O1主體庫&對比模版五項更新。此次核心亮點在于兩個O系列生成模型,其“O”代表Omni(all,一切),意味著模型不再局限于單一模態輸入,可靈O1更被視為視頻生成界的“Nano Banana”,二者均具備多模態整合、強可控性和多輪編輯能力。
可靈的野心不止于打造又一個視頻模型,梳理其近一年動作可知,O系列或許只是開端,未來方向是構建世界模型。早在2024年12月,首個火爆的視頻生成模型Sora宣稱自己是“世界模擬器”,此后眾多視頻生成模型在宣傳或研究上逐漸向“世界模型”靠攏,可靈也不例外。
從論文線索來看,快手在相關技術演進上早有布局。2024年12月Sora公開上線當月,快手就發布論文《Owl-1: Omni World Model for Consistent Long Video Generation》,提出Omni World Model(Owl-1),用于實現持續長視頻生成并預測未來動態。進入2025年,可靈團隊密集發布世界模型相關研究,緊跟行業關鍵節點。例如2025年8月Google發布實時交互的Genie3后,快手對其在游戲領域的應用展開研究,論文獲ICCV 2025 Highlight;2025年11月李飛飛發布3D“世界模型”,快手也有對應模型Terra。
然而,“世界模型”概念被炒熱的同時,也引發爭議。圖靈獎得主Yann LeCun認為視頻生成不等于世界模型,單純預測下一個像素點只是對畫面模仿,并非真正理解物理世界。對此,可靈團隊在2025年11月發布論文《Simulating the Visual Visual World with Artificial Intelligence: A Roadmap》回應,稱視頻生成模型可學習物理規律,像素是模型渲染給人類看的結果,不代表中間沒有計算和推理。該論文還為“視頻生成模型如何通往世界模型”畫出路線圖,將Kling 1.0歸類為第一代世界模型,Kling2.1 Master歸類為第二代世界模型。在他們看來,現代視頻模型并非直接預測像素,而是存在隱式世界模型在高維潛在空間進行推演,與LeCun的潛在空間推理同理,接收當前狀態輸入,基于推理能力和內化物理法則計算下一時刻世界狀態。
可靈近期研究圍繞世界模型展開。在《Simulating the Visual World with Artificial Intelligence: A Roadmap》中,團隊認為“視頻生成”走向“世界模型”的關鍵是導航模式。真正的世界模型不能僅靠“空間條件”描摹畫面,必須能聽懂“導航條件”,即具有時序和空間推理的交互指令。為此,團隊在“導航條件”研究上投入頗多。鏡頭運動是導航條件之一,ICCV高分論文RecamMaster提出攝像機控制生成視頻重渲染框架,能在新攝像機軌跡下再現輸入視頻動態場景;SynCamMaster讓模型在同一時間軸實現多攝像機視頻生成,確保不同視角內容一致;AdaViewPlanner讓AI成為攝影指導,自主規劃最佳觀察路徑。這些研究提升了模型對3D、4D空間的動態感知,也體現在此次O系列中,如可靈O1能針對側面車內駕駛視頻生成后座視角視頻,可圖O1可將二維房間設計圖轉化為三維空間設計圖。按照快手路線圖,可靈O1處于世界模型第二代到第三代之間,第二代特征是交互性,第三代核心是“規劃能力”與“實時交互”,強化導航模式后模型不僅能“聽指令走路”,還能基于物理知識自主推演生成無限長視頻序列。
除導航類研究,快手還構建物理、推理方向研究。推出的Monet訓練框架,通過讓多模態大語言模型(MLLMs)在連續潛在視覺空間推理,增強視覺推理能力;PhysMaster作為模型外掛,通過注入物理知識增強視頻生成模型物理感知能力,使其生成更符合物理規律的視頻。
若快手繼續向世界模型前進,實時性是關鍵卡點。盡管O1模型在空間邏輯、指令遵循上有進步,但生成5秒視頻仍需約2分鐘。從可靈1.0到2.1 Master的迭代中,團隊采取“畫質優先,速度讓位”策略。但對于模擬世界的系統,無法實時響應更像“離線渲染器”。不過,在論文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》中,團隊埋下伏筆,隨著“上下文壓縮”技術改進,視頻生成時間有望降低。
當前,Sora和可靈在發展路徑上呈現“錯位”。Sora最初喊出“世界模擬器”口號,如今卻更像產品經理,忙著開發AI視頻版TikTok和Cameo等娛樂玩法,向應用層發展;可靈雖有一系列研究,對外產品公布卻未提世界模型。這背后是商業考量,在11月19日Q3財報會上,程一笑提到視頻模型與大語言模型均朝世界模型演進,視頻模型有望成為核心技術支撐,但可靈現階段核心目標是“AI影視創作場景”。可靈產品和模型分離,平臺是核心輸出產品,其營業收入主要由P端付費用戶(專業自媒體、視頻創作者和廣告營銷從業者等)和企業客戶API服務構成,近70%由P端付費用戶貢獻。這群“金主”更關注能否穩定出片、能否賺錢,對是否為“世界模擬器”和實時性要求不高,因此可靈宣稱自己是世界模型似乎無額外增益。
然而,單純作為“影視創作工具”商業天花板明顯。根據Q3數據,可靈AI今年第一、二、三季度收入分別超1.5億元、2.5億元、3億元,全年預計收入1.4億美元,但增速放緩。谷歌Veo3用于機器人領域、特斯拉利用生成式視頻訓練自動駕駛、游戲行業對AI引擎的渴求,表明具身智能、自動駕駛、游戲引擎等領域才是視頻生成模型真正的發展方向,對模型物理一致性和實時交互能力要求極高。因此,對視頻生成模型而言,成為“世界模型”至關重要,只有模擬真實,才能挖掘與物理世界交互的金礦。














