阿里通義大模型團隊近日正式開源了新一代端到端語音交互模型Fun-Audio-Chat 8B,該模型憑借多項創(chuàng)新技術,在多個權(quán)威評測榜單中超越同尺寸競品,展現(xiàn)出強大的語音交互能力。這一成果標志著語音交互領域向更自然、更高效的方向邁出重要一步。
在性能表現(xiàn)上,F(xiàn)un-Audio-Chat 8B在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等主流評測中均位列同尺寸模型榜首,綜合表現(xiàn)優(yōu)于GLM4-Voice、Kimi-Audio、Baichuan-Omni等知名模型。這一成績得益于其獨特的端到端架構(gòu)設計,模型可直接從語音輸入生成語音輸出,跳過傳統(tǒng)ASR語音識別、LLM文本處理、TTS語音合成三階段串聯(lián)的復雜流程,不僅顯著降低延遲,還提升了交互流暢度。
技術層面,該模型采用雙分辨率處理機制:共享大模型層以5Hz幀率高效處理語音特征,語音生成模塊則以25Hz幀率輸出高質(zhì)量音頻。這種設計使GPU計算資源消耗減少近50%,同時保持語音的自然度與表現(xiàn)力。為增強模型實用性,研發(fā)團隊使用了百萬小時級多任務訓練數(shù)據(jù),覆蓋音頻理解、情感識別、工具調(diào)用等真實場景,使模型具備更強的場景適應能力。
在實際應用中,F(xiàn)un-Audio-Chat展現(xiàn)出類人化的交互特性。模型不僅能通過語氣、語速、停頓等語音特征感知用戶情緒,即使未明確表達情緒狀態(tài),也能給出恰當回應。例如當用戶以低沉語速提問時,模型會主動調(diào)整回應方式,提供更具安撫性的建議。模型支持復雜任務處理,用戶通過自然語音下達指令后,模型可自動解析需求并調(diào)用相關函數(shù)完成操作,大幅簡化人機交互流程。
目前,F(xiàn)un-Audio-Chat 8B已通過GitHub、HuggingFace、ModelScope等平臺開源,開發(fā)者可自由獲取模型代碼與權(quán)重文件。項目團隊還提供了在線演示頁面,用戶可直接體驗模型與語音交互、情緒感知、任務處理等核心功能。這一開源舉措有望推動語音交互技術在智能客服、教育輔導、無障礙服務等領域的廣泛應用。








