生成式AI領(lǐng)域近日迎來新一輪技術(shù)浪潮,國產(chǎn)視頻生成大模型可靈AI在短時間內(nèi)連續(xù)推出多項突破性功能,引發(fā)行業(yè)廣泛關(guān)注。其最新發(fā)布的可靈O1模型與2.6版本,通過多模態(tài)融合與音畫協(xié)同技術(shù),重新定義了AI視頻創(chuàng)作的效率邊界。
可靈O1模型的核心突破在于構(gòu)建了全球首個統(tǒng)一的多模態(tài)創(chuàng)作引擎。該模型將參考生視頻、文生視頻、首尾幀生成等十余種任務(wù)整合至單一平臺,用戶無需切換工具即可完成從創(chuàng)意構(gòu)思到成品輸出的全流程。技術(shù)團隊通過引入Multimodal Transformer架構(gòu)與長上下文理解機制,使模型在主體一致性控制與畫面細(xì)節(jié)編輯方面達到行業(yè)領(lǐng)先水平。內(nèi)部測評數(shù)據(jù)顯示,在圖片參考任務(wù)中,其效果較Google Veo 3.1提升247%;指令變換任務(wù)中,較Runway Aleph優(yōu)化230%。
圖像生成領(lǐng)域同樣實現(xiàn)重要迭代。新上線的圖像O1模型支持純文本生成與多圖融合創(chuàng)作,用戶最多可上傳10張參考圖進行風(fēng)格遷移或元素重組。該模型通過建立從基礎(chǔ)生成到高階編輯的無縫銜接管道,顯著降低了專業(yè)圖像處理的門檻。測試案例顯示,模型在復(fù)雜場景構(gòu)建與細(xì)節(jié)還原方面表現(xiàn)突出,能夠精準(zhǔn)捕捉用戶描述中的光影變化與材質(zhì)特征。
12月3日發(fā)布的可靈2.6版本則聚焦音畫協(xié)同技術(shù),推出行業(yè)首個"音畫同出"功能。該模型突破傳統(tǒng)AI視頻"先畫面后配音"的工作模式,可在單次生成中同步輸出自然語言、動作音效與環(huán)境氛圍音。目前支持中英文語音生成,視頻時長上限達10秒,后續(xù)將擴展至更多語種與定制化聲線。技術(shù)實現(xiàn)上,模型通過深度語義對齊算法,使音頻節(jié)奏與畫面動態(tài)保持高度同步,在環(huán)境音渲染與情感表達層面達到專業(yè)級水準(zhǔn)。
數(shù)字人技術(shù)同步迎來升級。2.0版本支持用戶上傳角色圖像后,通過文本描述直接驅(qū)動數(shù)字人表演,最長可生成5分鐘視頻內(nèi)容。該功能內(nèi)置表情捕捉與肢體動作生成算法,能夠根據(jù)配音內(nèi)容自動匹配微表情變化,在廣告營銷、短視頻制作等領(lǐng)域展現(xiàn)出強大應(yīng)用潛力。某影視公司測試反饋顯示,使用數(shù)字人2.0制作產(chǎn)品宣傳片,效率較傳統(tǒng)拍攝提升80%以上。
技術(shù)突破的背后是持續(xù)的市場驗證。數(shù)據(jù)顯示,可靈AI已服務(wù)超過2萬家企業(yè)客戶,覆蓋影視制作、廣告創(chuàng)意、電商營銷等30余個行業(yè)。某頭部電商平臺采用其視頻生成技術(shù)后,商品展示視頻制作成本降低65%,點擊轉(zhuǎn)化率提升40%。技術(shù)團隊透露,正在研發(fā)的3.0版本將重點優(yōu)化長視頻生成能力與多語言支持,計劃引入3D空間理解技術(shù),進一步拓展虛擬制片與沉浸式內(nèi)容創(chuàng)作場景。
行業(yè)觀察人士指出,可靈AI的密集更新標(biāo)志著國產(chǎn)生成式AI技術(shù)進入成熟應(yīng)用階段。其通過構(gòu)建統(tǒng)一的多模態(tài)創(chuàng)作底座,不僅解決了傳統(tǒng)工具鏈割裂的痛點,更在創(chuàng)作效率與作品質(zhì)量層面形成差異化優(yōu)勢。隨著數(shù)字人、音畫協(xié)同等功能的持續(xù)完善,AI技術(shù)正在從輔助工具升級為內(nèi)容創(chuàng)作的核心驅(qū)動力。











