滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

實測可靈2.6：給AI視頻上了一堂聲音課

時間：2025-12-10 11:08:59 來源：市象編輯：快訊 IP：北京 發表評論無障礙通道

中文視頻AI邁入“有聲之年”。

作者|景行編輯|楊舟

不得不感嘆AI大模型的進步速度。

12月，可靈AI先是發布統一多模態視頻大模型可靈O1，緊接著閃電發布可靈2.6、數字人2.0。

可靈2.6的發布，則讓困擾視頻工作者已久的聲畫不同步問題得到解決，其核心功能就是音畫同出，簡單理解，一次生成，能同時做出視頻和音頻，而且二者實時同步。

其中，可選的音頻效果不僅涵蓋人聲對話、獨白，還提供環境音、效果音、樂器演奏乃至說唱等完整的音頻生態。

在此之前，部分海外視頻模型已經在音畫同出領域做出探索，如Google Veo 3.1和OpenAI Sora 2，二者均能實現從口型到動作、聲音的同步生成，并與畫面完成匹配。

但這些模型同樣存在弱點，如音頻控制力不足，同角色的不同片段聲音、語氣統一效果一般，對中文語音的理解不足導致腔調怪異，用戶調整困難等等。

在可靈2.6發布后，「市象」也在第一時間試用了產品。在一系列測試后，可以確認的是，AI視頻模型，要對過去的創作流程徹底重構了。

01從啞劇到聲臨其境

AI視頻的音畫同出，并非最新功能，此前已有多模型能做到。

“Sora 2是視頻生成領域的 GPT-3.5時刻。”

這一表述來自今年9月，OpenAI的官方博客。伴隨新一代視頻生成模型Sora2發布，OpenAI公開表示，新模型的性能已經超越歷代模型，不僅在物理效果上更加精確，同時還配備了同步音頻功能。

例如，在生成視頻時，能完成復雜的運動動作，或模擬真實運動場的物理表現，同時生成背景音、語音和音效，并將其融入到視頻當中。

但面對Sora2、Veo3.1這樣的海外一線模型時，不少海外博主，表現出對可靈2.6的認可。

“這比Veo3好多了！相比Veo3，它最大的優勢在于：原生支持1080p，這在畫質上帶來了巨大的提升。”

這一表述來自海外視頻博主Simon Meyers，在分享中，他使用可靈2.6制作了一則預告片，并用各種復雜的提示詞來測試模型功能：

“我嘗試了各種聲音和對話，沒有發現任何明顯的限制——音效、人聲，甚至歌聲都能完美呈現！當然，和所有視頻模型一樣，你仍然需要進行一些迭代，但這完全可以接受。語音聽起來很逼真，語調也十分精準，總的來說，這是一個巨大的飛躍。”

單人獨白、背景歌曲、視頻氛圍音效、吉他彈奏聲（甚至有遠景和近景下，兩種吉他音的不同表現）、歌唱聲、打擊樂器聲、氣球、攪拌器、電鉆、無人機、甚至結尾字幕配合的女聲吟唱，多種復雜音頻出現在同一作品中，互不干擾，并與畫面完美融合。

另一視頻博主Curious Refuge選擇用新的方式測試可靈2.6——用四組畫面和生成詞，分別交給Veo3.1和可靈2.6，分別是俯拍鏡頭，兩位騎士騎馬穿越森林；推鏡頭，食客在面館吃拉面；特寫鏡頭，男子在帆船上獨白；固定中景鏡頭，男子吃掉餅干，并與寵物狗交流。

結論是，可靈2.6的表現令人意外。

在各項對比中，可靈2.6在多個測試成績上要超過Veo3.1，如場景生成、相機運動更符合生成詞等等。盡管在Veo 3.1的輸出結果中，也有部分表現出色，如音頻更為洪亮，但該博主的結論是，在這一輪測試中，可靈2.6略占上風。

事實上，除音畫協同外，可靈2.6還重點強化了音頻質量和語義理解。前者會讓各類音效層次更豐富、接近真實世界的聲音效果；后者則讓AI對復雜劇情的理解能力更強，理解作者意圖。

更多音頻元素的融入，則讓AI視頻效果直逼現實。除了單人講話外，可靈2.6支持多人多白、不同風格歌聲、環境音、物理音效，乃至多種音頻組合的混合音效。

這意味著，創作者只需要通過文本描述，就能還原一個物理世界多重環境音的層次感與空間感，獲得一個無需后期修改的完整作品。

02重構工作流

過去的AI視頻模型，創作者的工序大概是這樣幾步：

創作者思考創意，確定文字腳本、畫面分鏡等方向——由AI生成文、圖等素材——進一步通過素材生成視頻——后期生成配音和音效，并校對完成。

其中，后期制作是最為耗時的環節之一。對剪輯從業者來說，無論是語音、效果音的制作和篩選，還是視頻的后期對軸，將音效與畫面逐幀對齊，這一工作對視頻質量的影響極大，不僅依賴經驗，且過程繁瑣，需要在視頻工具、音頻工具中反復切換，

這讓可靈2.6的新功能重要性更為突出。在創作時，用戶只需輸入畫面、動作、聲音的三要素精確描述，就能獲得一段高質量的AI視頻。

這意味著，無論用戶是否有AI視頻創作經驗，都能在可靈2.6模型中體驗無門檻的創作流程。

具體方法十分簡單，在Web端可靈頁面中選擇視頻生成，文生視頻、圖生視頻均可選擇，在下方勾選“音畫同出”，并選擇品質模式、畫面比例和產出條數，輸入生成詞或參考圖即可。

需要注意的是，要生成一條滿意的AI音畫直出視頻，用戶最好能對視頻畫面、動作、聲音三要素進行精確描述，如畫面細節，人物情緒、語速等。

03當AI學會說話

在與羅永浩的播客對談中，影視颶風創始人TIM曾有這樣一番表述：在AI面前，創作者10年的努力都沒有價值。最多兩年，AI就能替換掉一個非常優秀的剪輯師。

從產業場景來看，視頻AI正以閃電速度，從自媒體創意輔助者向全能的視頻生產力工具轉變。特別是可靈2.6將視頻模型音畫協同能力大幅提升后，一些過去依賴人工完成的創作工作，在AI面前將失去性價比優勢。

例如在電商場景下，人工解說的效率將難以匹敵AI。

未來的電商市場，一款產品的商品圖片，可以由商家自主拍攝上傳，商品賣點的口播，則可以由AI解說完成，具體到使用場景，AI可以幫助商家輕易搭建任何高成本、電影級質感的視頻背景，并清晰傳遞出產品優勢。如果憑借人力完成，其成本無疑將是天文數字。

在廣告場景下，視頻AI則有更大的發揮空間。

在過去，一條一分鐘左右的廣告宣傳片制作周期可能要花費數周，策劃、攝影、剪輯、配音、后期等工種則需要全程跟進，確保最終產出符合創意規劃。

如今借助AI模型，創作者只需將創意交給AI來跑，借助文本生成、圖片生成等方式產出多個音畫協同的視頻作品并加以篩選，一些涉及到虛擬形象、特效等后期工作的效果，則能通過AI在幾分鐘內實現。

比如文本描述“生成一些精靈，用手舉起目標產品”“讓商品跨出國門，飛向世界各地”等，這不僅效率大幅提高，更降去了大部分成本。

可以說，只要一個行業存在視頻內容的產出需求，類似的改變就將持續發生。如自媒體創作、直播、播音傳媒、音樂MV、影視制作等等。

一個肉眼可見的改變是，在短視頻平臺，部分經史人文類博主已經率先應用AI生成視頻素材，以節約創作時間。隨著可靈2.6發布，中文視頻模型音畫協同技術成熟，留給博主的創作空間還將進一步拓展。

更多>同類資訊

馬斯克放話：三周內撤掉奧斯汀特斯拉 Robotaxi 的安全監督員

12-10

快手正悄悄地把可靈做成一個世界模型

12-10

小米進軍AI教育？正在招聘多個相關崗位

12-10

TikTok占美國社交電商市場份額18%

12-10

歐盟：蘋果與谷歌合作推出跨平臺數據遷移功能，彰顯《數字市場法案》價值

12-10

暴漲700%！TrendForce 預測2026年人形機器人迎產業拐點，年出貨破5萬臺

12-10

小米開放多個“AI教育”崗位招聘

12-10

馬斯克放話：三周內撤掉奧斯汀特斯拉Robotaxi的安全監督員

12-10

小米17 Ultra首發全新徠卡主攝：號稱是最強1英寸

12-10

vivo X300 Ultra影像配置曝光：超廣角采用X300 Pro主攝傳感器

12-10

蘋果谷歌攜手新突破：跨平臺數據遷移將迎無線便捷新時代

12-10

2025年AI大模型激戰正酣：谷歌阿里“覺醒”，中國模型“上桌”逐鹿全球

12-10

特斯拉人形機器人“審廠”引關注，量產曙光與挑戰并存，馬斯克押注能否成功？

12-10

Meta社交基本盤穩健，成本攀升與AI競爭下短期挑戰待解

12-10

麻省理工等機構借助Apple Watch數據，打造AI模型實現健康狀況精準預測

12-10

點擊查看更多 +

全站最新

TikTok Shop引爆黑五全球市場，內容電商助力中國商品出海新跨越

AI算力新銳Unconventional AI獲33.56億融資，貝索斯等大佬押注未來算力革命

華為2012實驗室新設基礎大模型部招募頂尖人才探索AI前沿領域

華為AEI：Agentic AI引領企業ICT運維邁向自主智能新紀元

五菱星光560即將亮相預售，硬朗外觀搭配5座或7座，提供三種動力選擇

哈弗H9穿越版12月11日登場 800mm涉水深度越野配置全面升級

熱門內容

本欄最新

TikTok Shop引爆黑五全球市場，內容電商助力中國商品出海新跨越

AI算力新銳Unconventional AI獲33.56億融資，貝索斯等大佬押注未來算力革命

華為2012實驗室新設基礎大模型部招募頂尖人才探索AI前沿領域

小米三款新車計劃曝光：增程SUV、加長款及高性能版，2026年或引爆市場

極石ADAMAS：1600km續航“方盒子”，是土豪新寵還是實力硬貨？

星途ET5西安上市：以新奢智電之姿開啟家庭出行新體驗

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

實測可靈2.6：給AI視頻上了一堂聲音課

日本精品一区二区三区高清久久