阿里近日正式發布新一代視頻生成模型——萬相2.6系列,憑借音畫同步、多鏡頭生成及角色扮演等創新功能,迅速成為行業焦點。該模型不僅被宣稱是全球功能最全面的視頻生成工具,更是國內首個支持角色扮演能力的視頻模型,標志著國產AI技術在視覺創作領域邁入新階段。
相較于前代萬相2.5,新版本針對專業影視與圖像創作場景進行了深度優化。其核心升級包括畫質與音效的顯著提升、指令響應能力的增強,以及單次生成視頻時長延長至國內領先的15秒。更引人注目的是,新增的角色扮演與分鏡控制功能,讓用戶能夠通過文本指令實現復雜敘事視頻的自動化生成。例如,用戶上傳一張數字人照片并輸入分鏡腳本后,模型可在幾分鐘內生成包含多場景切換、人物動作連貫的15秒劇情短片,且畫面主體一致性較高,無明顯邏輯漏洞。
在實際測試中,萬相2.6展現了強大的場景適應能力。當輸入“男生向女生表白”主題的腳本時,模型生成的視頻不僅準確還原了遞花、對視、擁抱等動作細節,人物嘴型與聲音同步度也達到較高水平,盡管情緒表現仍略顯機械,但已優于多數同類產品。而在角色扮演功能測試中,用戶上傳馬斯克采訪視頻后,模型成功將其替換為女性數字分身,神態與姿態高度還原原角色,僅在聲音保留男性特征方面存在細微偏差。模型對多人互動場景的處理也有所突破,例如在“赫敏飛奔擁抱哈利”的測試中,雖偶有角色替換誤差,但整體動作流暢度與情感表達已接近真實拍攝效果。
技術層面,萬相2.6通過多模態聯合建模實現畫面與聲音的全維度一致性。其創新架構可同時解析視頻中的主體情緒、姿態、視覺特征,以及音色、語速等聲學信息,并在生成階段將這些特征作為控制條件,確保單人或多人表演的連貫性。在分鏡控制方面,模型通過高層語義理解技術,將文本腳本轉化為具備敘事張力的專業級多鏡頭段落,即使在復雜場景切換中,也能保持主體、布局與環境氛圍的統一建模。
目前,萬相2.6已開放個人用戶通過官網直接體驗,企業用戶則可通過阿里云百煉平臺調用模型API。據透露,千問APP也將于近期集成該模型功能。從文生圖、圖像編輯到文生視頻、圖生視頻,再到人聲生視頻與動作生成,萬相模型家族現已覆蓋超過10種視覺創作能力,持續刷新全球功能記錄。此次升級不僅鞏固了阿里在AI視頻生成領域的領先地位,更為專業影視制作、短視頻創作等領域提供了高效工具,推動行業向自動化、智能化方向加速演進。











