字節跳動近日推出全新視頻生成模型Vidi2,在視頻理解與處理領域實現重大突破。該模型不僅具備超越Gemini 3 Pro的時空定位能力,更開創性地將視頻剪輯、劇本創作與特效生成等復雜任務整合為端到端解決方案,為影視創作領域帶來顛覆性變革。
在核心功能演示中,Vidi2展現出驚人的自動化創作能力。用戶僅需提供原始素材與創意方向,模型即可自動生成包含鏡頭時長、播放速度、字幕樣式甚至吐槽旁白的完整剪輯方案。通過JSON格式的指令輸出,創作者可直接獲得從數小時素材中精準提取的高光片段,實現電影級效果的批量生成。這種能力使得短視頻創作者能夠突破傳統剪輯流程的束縛,將更多精力投入創意構思。
技術測試數據顯示,Vidi2在時空定位任務中取得壓倒性優勢。其vIoU-Int.指標達到60.3%,較GPT-5的33.6%提升近一倍,更是Gemini 3 Pro Preview的3.6倍。在超長視頻處理場景下,模型仍能保持38.7%的檢索精度,即便面對運動速度極快的微小目標,也能實現穩定追蹤。這種突破性表現源于其創新的端到端架構設計,能夠同時鎖定目標事件的時間片段與空間邊界框軌跡。
模型架構層面,研發團隊以Vidi1為基礎框架,集成Google開源的Gemma-3模型與增強型視覺編碼器,構建起120億參數的龐大底座。通過分解注意力機制,將傳統Transformer的全注意力運算拆解為視覺、文本及跨模態三個獨立模塊,使計算復雜度從平方級降至線性級。這種設計使模型在有限顯存條件下即可處理長達一小時的視頻流,同時保持高精度特征提取能力。
針對時空定位數據稀缺的難題,研發團隊開發出獨特的數據合成方案。通過滑動窗口算法在靜態圖像上模擬攝像機運動,自動生成隨時間連續變化的邊界框序列。這種動態擴展技術將現有圖像級空間定位數據轉化為視頻級訓練素材,配合海量人工標注的真實視頻數據,形成多階段強化訓練體系。最終訓練階段采用的時間感知多模態對齊策略,通過雙向預測任務與開放式問答驗證,顯著提升了模型在視聽文本三模態間的語義關聯能力。
行業觀察指出,Vidi2的崛起標志著AI視頻生成領域進入數據驅動的新階段。字節跳動憑借旗下短視頻平臺的海量數據積累,構建起獨特的競爭優勢。與依賴YouTube數據的國際模型相比,Vidi2在短視頻場景下的優化表現尤為突出,其自適應Token壓縮策略能夠根據視頻時長動態調節信息密度,在處理短視頻時保留高密度特征,長視頻則通過壓縮降低計算負載。這種靈活的數據處理機制,為不同時長的視頻創作提供了統一解決方案。











