如果不是深入挖掘?qū)W術(shù)與產(chǎn)業(yè)動(dòng)態(tài),很多人或許仍不知曉:前商湯科技執(zhí)行研究總監(jiān)、AIGC產(chǎn)品“秒畫”的核心推動(dòng)者劉宇,已悄然帶領(lǐng)新公司完成多輪融資,最新估值突破13.2億美元。這一消息并非通過(guò)高調(diào)的融資通稿公布,而是隱匿于其個(gè)人主頁(yè)的動(dòng)態(tài)更新中:2025年1月創(chuàng)立專注“實(shí)時(shí)交互多模態(tài)內(nèi)容”的AI初創(chuàng)企業(yè);2月完成種子輪融資,由紅杉中國(guó)與IDG資本聯(lián)合領(lǐng)投;8月Pre-A輪估值超4億美元;11月A輪估值躍升至13.2億美元。僅用一年時(shí)間,這家初創(chuàng)企業(yè)便躋身全球視頻模型創(chuàng)業(yè)公司第一梯隊(duì),與Runway(30億美元)、Luma(40億美元)、Pika Labs(數(shù)億美元)等頭部玩家同臺(tái)競(jìng)技。
更引人注目的是,盡管估值已達(dá)13.2億美元,這家公司卻始終未正式公布名稱,其核心產(chǎn)品也未公開(kāi)亮相。然而,業(yè)內(nèi)通過(guò)蛛絲馬跡推測(cè),劉宇的創(chuàng)業(yè)項(xiàng)目極有可能是Vivix AI。Vivix官網(wǎng)描述的技術(shù)方向——聚焦“內(nèi)容實(shí)時(shí)互動(dòng)”與“下一代視覺(jué)生成引擎”——與劉宇個(gè)人主頁(yè)的愿景高度吻合。進(jìn)一步追溯公開(kāi)信息,Vivix Group Limited注冊(cè)于香港,控股杭州、上海兩家名為“維悅時(shí)刻科技”的企業(yè),其法人代表余鋒偉與宋廣錄均曾任職商湯,而劉宇本人也曾長(zhǎng)期擔(dān)任商湯研究執(zhí)行總監(jiān)。這種“老同事再聚首”的創(chuàng)業(yè)組合,讓推測(cè)更具可信度。劉宇今年在ICML、CVPR等頂會(huì)發(fā)表的多篇論文中,余鋒偉與宋廣錄均位列合作者名單,公司官網(wǎng)對(duì)估值的描述也與劉宇個(gè)人主頁(yè)一致,多重線索相互印證。
劉宇的學(xué)術(shù)與產(chǎn)業(yè)履歷堪稱“教科書級(jí)”。他在香港中文大學(xué)MMLab完成博士訓(xùn)練,師從王曉剛,早期研究聚焦圖像識(shí)別、檢測(cè)與多視角三維理解,曾在ImageNet、MOT等國(guó)際競(jìng)賽中斬獲冠軍。加入商湯后,他擔(dān)任執(zhí)行研究總監(jiān),帶領(lǐng)近百人團(tuán)隊(duì)開(kāi)發(fā)大規(guī)模AIGC與多模態(tài)交互模型,掌管超4000張GPU的算力資源。其主導(dǎo)的“秒畫”產(chǎn)品上線9天用戶數(shù)突破300萬(wàn),日活超53萬(wàn),成為早期“AI畫圖+內(nèi)容社區(qū)”模式的標(biāo)桿案例。這段經(jīng)歷賦予他雙重優(yōu)勢(shì):既具備“數(shù)千卡算力+千萬(wàn)級(jí)用戶”的實(shí)戰(zhàn)經(jīng)驗(yàn),又完成了從“識(shí)別”到“生成+多模態(tài)+長(zhǎng)時(shí)序”的技術(shù)轉(zhuǎn)型,為視頻模型創(chuàng)業(yè)埋下伏筆。
從融資節(jié)奏看,這家初創(chuàng)企業(yè)的成長(zhǎng)速度堪稱“極致”。2025年1月成立后,2月即鎖定紅杉中國(guó)與IDG資本的種子輪投資;8月Pre-A輪估值突破4億美元;11月A輪估值達(dá)13.2億美元。這一速度在全球AI視頻賽道亦屬罕見(jiàn):Runway在2025年4月完成3.08億美元D輪融資后估值達(dá)30億美元;Luma AI同年底融資9億美元后估值升至40億美元;Pika Labs在2024-2025年間多輪融資后估值徘徊于4.7億至7億美元區(qū)間。相比之下,劉宇的新公司在產(chǎn)品未全面公開(kāi)、品牌知名度有限的情況下,已躋身估值中上部,資本押注的邏輯值得深究。
劉宇對(duì)公司方向的描述僅有一句話:“致力于實(shí)時(shí)交互式多模態(tài)內(nèi)容”,但結(jié)合Vivix的技術(shù)路線與他的研究軌跡,可拼湊出更清晰的圖景。傳統(tǒng)互聯(lián)網(wǎng)以“信息流”為核心,內(nèi)容被預(yù)制、剪輯后單向推送,用戶被動(dòng)接收。Vivix則判斷,下一代互聯(lián)網(wǎng)的底層界面將是“交互式生成AI”:用戶與系統(tǒng)實(shí)時(shí)互動(dòng),系統(tǒng)通過(guò)視覺(jué)、聽(tīng)覺(jué)、文字、動(dòng)作等多模態(tài)輸入即時(shí)生成個(gè)性化內(nèi)容,創(chuàng)作過(guò)程變?yōu)槌掷m(xù)流動(dòng)的互動(dòng)。這一愿景的核心挑戰(zhàn)在于“實(shí)時(shí)性”——當(dāng)前最強(qiáng)視頻生成模型雖質(zhì)量驚人,但推理速度慢、成本高,難以支撐交互場(chǎng)景。Vivix的解決方案涉及三方面:其一,通過(guò)自適應(yīng)低精度計(jì)算動(dòng)態(tài)調(diào)整位寬,在精度與效率間取得平衡,降低計(jì)算、內(nèi)存與通信成本;其二,開(kāi)發(fā)基于深度學(xué)習(xí)編譯器的推理引擎,自動(dòng)優(yōu)化算子切分與計(jì)算圖融合,提升硬件利用率;其三,設(shè)計(jì)混合多維并行策略,針對(duì)視頻的時(shí)間、空間、通道與模態(tài)維度拆分組合,適配異構(gòu)GPU環(huán)境。這些技術(shù)使推理速度提升兩個(gè)數(shù)量級(jí),實(shí)現(xiàn)“0.6T秒生成T秒畫面”的突破。
速度與成本問(wèn)題解決后,Vivix將矛頭指向“以語(yǔ)言為中心的智能范式”。當(dāng)前主流大模型以“預(yù)測(cè)下一個(gè)token”為目標(biāo),本質(zhì)是統(tǒng)計(jì)模仿,難以理解思想本質(zhì);訓(xùn)練數(shù)據(jù)經(jīng)語(yǔ)言過(guò)濾后存在偏差,模型學(xué)到的世界是“語(yǔ)言回聲”的縮影;多模態(tài)系統(tǒng)雖能處理圖像、視頻,但常將信息路由回語(yǔ)言通道,導(dǎo)致信息損失與認(rèn)知偏差。Vivix的解決方案是構(gòu)建原生多模態(tài)系統(tǒng):視覺(jué)、聽(tīng)覺(jué)與動(dòng)態(tài)畫面作為“一等公民”在統(tǒng)一標(biāo)記空間交互,語(yǔ)言僅是通路之一,而非“總路由”。這一設(shè)計(jì)旨在讓AI直接跨模態(tài)感知世界,形成非語(yǔ)言中心的內(nèi)部表征,從而更貼近現(xiàn)實(shí)、更具自主性。
這家估值13.2億美元的初創(chuàng)企業(yè)之所以引發(fā)行業(yè)關(guān)注,不僅因其融資速度,更因其選擇了一條“反向道路”:在視頻模型競(jìng)爭(zhēng)白熱化的階段,不追求更精美的生成效果或更高參數(shù),而是試圖將視頻轉(zhuǎn)化為實(shí)時(shí)交互語(yǔ)言,重新定義互聯(lián)網(wǎng)界面為“AI原生、實(shí)時(shí)、多模態(tài)”形態(tài)。盡管團(tuán)隊(duì)規(guī)模不足20人,卻覆蓋模型、系統(tǒng)、編譯器與產(chǎn)品體驗(yàn)全棧,技術(shù)野心可見(jiàn)一斑。目前,其核心產(chǎn)品尚未亮相,市場(chǎng)考驗(yàn)尚未開(kāi)始,但若賭對(duì)方向,或?qū)⑼苿?dòng)視頻從被動(dòng)內(nèi)容形態(tài)升級(jí)為人與AI協(xié)同創(chuàng)造的實(shí)時(shí)界面。資本押注的是可能性,行業(yè)關(guān)注的是變量,而答案終將由產(chǎn)品揭曉——它是技術(shù)炫技的短暫火花,還是互聯(lián)網(wǎng)交互新范式的開(kāi)端?這道題,答案不遠(yuǎn)。










