鳳凰網科技訊 12月23日 通義大模型發布新一代端到端語音交互模型Fun-Audio-Chat。這是通義百聆語音模型系列中,首個主打“語音對語音”交互能力的模型,支持用戶直接通過語音與模型進行多輪對話。
從技術指標看,該模型在OpenAudioBench、VoiceBench、Ultraeval-Audio、MMAU、MMSU、SpeechFunctionCall等多項語音與多模態評測中取得當前開源模型中的領先成績,整體性能超過多款同參數規模模型,顯示出其在語音理解、生成以及對話協同上的綜合能力。
Fun-Audio-Chat-8B隸屬于通義百聆語音模型家族。此前,該系列已包含語音轉文字模型Fun-ASR以及文字轉語音模型Fun-CosyVoice3。與前兩者不同,Fun-Audio-Chat-8B強調端到端語音交互能力,可直接用于語音聊天、情感陪伴、智能終端交互以及語音客服等場景。目前,該模型已同步在魔搭社區、Hugging Face及GitHub開源。
在模型訓練與架構設計上,阿里云披露了兩項關鍵技術路徑。其一是Core-Cocktail 兩階段訓練策略,通過分階段引入語音與多模態能力,再與原有文本大模型參數融合微調,以降低新增能力對原有語言理解能力的影響,緩解“災難性遺忘”問題。其二是引入多階段、多任務的偏好對齊訓練,使模型在真實語音對話中能更準確捕捉語義與情緒線索,提升對話自然度。
算力效率也是該模型的一大特點。Fun-Audio-Chat-8B采用 壓縮—自回歸—解壓縮的雙分辨率端到端架構,將音頻幀率降低至約 5Hz。在保證語音質量的前提下,該設計可 節省近50%的GPU計算開銷,在當前語音大模型普遍算力成本較高的背景下,具有一定工程意義。
整體來看,Fun-Audio-Chat-8B的開源,標志著通義大模型在語音交互方向進一步向“低算力、強對話”的實用化階段推進,也為開源語音大模型在真實場景中的部署提供了新的技術參考。









