蘋(píng)果公司近日推出了一款名為STARFlow-V的新型視頻生成模型,該模型在技術(shù)路徑上與當(dāng)前主流的擴(kuò)散模型截然不同,轉(zhuǎn)而采用“歸一化流”技術(shù),旨在提升長(zhǎng)視頻生成的穩(wěn)定性和減少錯(cuò)誤累積。這一創(chuàng)新技術(shù)直接學(xué)習(xí)隨機(jī)噪聲與復(fù)雜視頻數(shù)據(jù)之間的數(shù)學(xué)變換,為視頻生成領(lǐng)域帶來(lái)了新的可能性。
傳統(tǒng)擴(kuò)散模型通過(guò)多步迭代去噪生成視頻,而STARFlow-V的“歸一化流”技術(shù)則實(shí)現(xiàn)了訓(xùn)練過(guò)程的單次完成,無(wú)需多次小迭代,顯著提高了訓(xùn)練效率。在生成速度方面,該模型訓(xùn)練完成后可直接輸出視頻,無(wú)需迭代計(jì)算,生成速度大幅提升。由于減少了逐步生成過(guò)程中的錯(cuò)誤累積,STARFlow-V在生成質(zhì)量上也表現(xiàn)出色。
蘋(píng)果公司表示,STARFlow-V是首個(gè)在視覺(jué)質(zhì)量和生成速度上能與擴(kuò)散模型相媲美的技術(shù)。通過(guò)并行處理和重用先前幀數(shù)據(jù),該模型生成五秒視頻的速度較初始版本提升了約15倍。這一優(yōu)勢(shì)使其在處理長(zhǎng)視頻時(shí)更具競(jìng)爭(zhēng)力。
針對(duì)長(zhǎng)視頻生成中常見(jiàn)的誤差累積問(wèn)題,STARFlow-V采用了雙架構(gòu)設(shè)計(jì)。一個(gè)組件負(fù)責(zé)管理跨幀的時(shí)間序列,確保運(yùn)動(dòng)一致性;另一個(gè)組件則優(yōu)化單個(gè)幀內(nèi)的細(xì)節(jié),提升畫(huà)面質(zhì)量。這種設(shè)計(jì)使STARFlow-V在長(zhǎng)達(dá)30秒的演示片段中保持了穩(wěn)定性,而競(jìng)爭(zhēng)對(duì)手如NOVA和Self-Forcing在幾秒后便出現(xiàn)模糊或色彩失真。
STARFlow-V的多功能性也是其一大亮點(diǎn)。該模型無(wú)需修改即可處理多種任務(wù),包括文本轉(zhuǎn)視頻、圖像轉(zhuǎn)視頻(將輸入圖像作為起始幀)以及視頻編輯(允許用戶添加或刪除對(duì)象)。這種靈活性使其在不同應(yīng)用場(chǎng)景中具有廣泛潛力。
在性能表現(xiàn)方面,STARFlow-V在VBench基準(zhǔn)測(cè)試中獲得了79.7分。雖然落后于Veo3(85.06)和HunyuanVideo(83.24)等頂尖擴(kuò)散模型,但它明顯優(yōu)于其他自回歸模型,尤其在空間關(guān)系和人體表征方面表現(xiàn)突出。然而,該模型仍存在一些局限,例如分辨率相對(duì)較低(640×480,16幀/秒),且目前無(wú)法在標(biāo)準(zhǔn)顯卡上實(shí)時(shí)使用。
更值得關(guān)注的是,STARFlow-V在物理模擬方面存在明顯缺陷。例如,在演示中出現(xiàn)了“章魚(yú)穿過(guò)玻璃”和“石頭憑空出現(xiàn)”等不符合物理規(guī)律的現(xiàn)象。蘋(píng)果公司承認(rèn)這些限制,并表示未來(lái)將專注于加快計(jì)算速度、縮小模型規(guī)模,以及使用更注重物理精確性的訓(xùn)練數(shù)據(jù)。
目前,STARFlow-V的相關(guān)代碼已在GitHub上公開(kāi),模型權(quán)重也將隨后在Hugging Face上發(fā)布。這一舉措為研究人員和開(kāi)發(fā)者提供了進(jìn)一步探索和改進(jìn)該模型的機(jī)會(huì)。













