阿里通義近日宣布,其Qwen3-TTS家族迎來重要更新,正式推出兩款創(chuàng)新模型——音色創(chuàng)造模型Qwen3-TTS-VD-Flash和音色克隆模型Qwen3-TTS-VC-Flash。這兩款模型在語音合成領(lǐng)域展現(xiàn)出卓越性能,為用戶帶來前所未有的個性化語音體驗(yàn)。
Qwen3-TTS-VD-Flash作為音色創(chuàng)造領(lǐng)域的突破性成果,支持通過復(fù)雜自然語言指令實(shí)現(xiàn)音色的精細(xì)化調(diào)控。用戶可自由定義音色、韻律、情感及人設(shè)等參數(shù),徹底擺脫傳統(tǒng)語音合成中預(yù)設(shè)音色或簡單克隆的限制。該模型在InstructTTS-eval評測中表現(xiàn)優(yōu)異,綜合評分顯著超越GPT-4o-mini-tts和Mimo-audio-7b-instruct,在角色扮演場景測試中更力壓Gemini-2.5-pro-preview-tts。其獨(dú)特的文本解析能力可自動處理復(fù)雜結(jié)構(gòu),精準(zhǔn)提取關(guān)鍵信息,即使面對非規(guī)范化文本也能保持穩(wěn)定輸出。
另一款明星模型Qwen3-TTS-VC-Flash則專注于音色克隆技術(shù),僅需3秒音頻樣本即可完成高精度克隆。該模型支持中、英、德、意、葡、西、日、韓、法、俄等10種主流語言的語音生成,在MiniMax TTS多語種測試集中,其平均詞錯誤率(WER)指標(biāo)全面領(lǐng)先MiniMax、ElevenLabs及GPT-4o-Audio-Preview等同類產(chǎn)品。特別在中文、英文、法文等語項(xiàng)的內(nèi)容穩(wěn)定性測試中,該模型展現(xiàn)出顯著優(yōu)勢。
兩款模型均具備高度擬人化的語音表現(xiàn)力,能夠根據(jù)文本語義自動調(diào)節(jié)語氣節(jié)奏,輸出自然生動的語音內(nèi)容。在技術(shù)實(shí)現(xiàn)上,Qwen3-TTS-VD-Flash允許用戶通過聲學(xué)屬性、人設(shè)描述、背景信息等自由組合,創(chuàng)造獨(dú)一無二的定制化聲音形象;Qwen3-TTS-VC-Flash則通過強(qiáng)化學(xué)習(xí)算法,在保持克隆音色特征的同時,顯著提升多語種語音生成的準(zhǔn)確性。
為方便開發(fā)者接入,阿里通義同步開放了Qwen3-TTS-Voice-Design和Qwen3-TTS-Voice-Clone的API文檔。這兩款模型的推出,標(biāo)志著語音合成技術(shù)從"標(biāo)準(zhǔn)化輸出"向"個性化創(chuàng)造"的重要跨越,將為有聲內(nèi)容創(chuàng)作、智能客服、虛擬主播等領(lǐng)域帶來全新可能。










