阿里巴巴云計算旗下Qwen團隊近日推出兩款創新型語音生成模型,標志著人工智能在聲音處理領域取得重要突破。這兩款模型分別聚焦文本驅動的語音生成與短音頻克隆技術,為內容創作者、影視制作及語音交互場景提供全新解決方案。
其中,Qwen3-TTS-VD-Flash模型突破傳統語音合成框架,允許用戶通過自然語言描述精準控制聲音特征。用戶可同時指定性別、年齡、情感狀態、語速節奏等參數,例如生成"帶有磁性低音的年輕女性解說聲"或"充滿戲劇張力的老年男性獨白"。該模型在多維度聲音控制能力上已超越OpenAI近期發布的GPT-4o mini-tts接口,尤其在情感渲染與語調變化方面表現突出。
另一款Qwen3-TTS-VC-Flash模型則專注于語音克隆技術,僅需3秒原始音頻即可完成聲音特征提取。該技術突破語言限制,支持中、英、日、韓等十種語言的跨語種復現,且在音色保真度與口音還原方面達到行業領先水平。測試數據顯示,其語音克隆錯誤率較Elevenlabs、MiniMax等同類產品降低約37%,在短音頻克隆場景下優勢顯著。
技術團隊透露,這兩款模型具備多模態處理能力,除常規語音生成外,還可模擬動物叫聲、環境音效等特殊聲音。通過深度神經網絡架構,模型能自動識別錄音中的背景音并分離目標聲源,為影視后期制作提供高效工具。開發者可通過阿里巴巴云API直接調用模型服務,同時Hugging Face平臺已上線交互式演示界面,用戶可實時體驗聲音定制與克隆功能。
行業分析師指出,這兩款模型的推出將重塑語音內容生產流程。從有聲書錄制到虛擬主播,從游戲角色配音到智能客服,高度可控的語音生成技術正在創造新的應用場景。值得注意的是,模型內置的倫理審查機制可自動過濾不當內容,確保技術應用的合規性。










