阿里旗下通義百聆團隊近日在語音技術領域取得重要進展,正式開源兩款輕量化語音模型。其中Fun-CosyVoice(0.5B版本)憑借其突破性的音色克隆能力引發關注,該模型僅需用戶提供3秒語音樣本,即可實現跨語言、跨方言的語音合成,同時支持情緒風格的動態調整。這項技術突破使得語音克隆不再受限于特定語種或表達方式,為個性化語音交互開辟了新路徑。
在技術實現層面,Fun-CosyVoice通過創新的零樣本學習框架,將傳統語音克隆所需的龐大訓練數據壓縮至極簡。開發者介紹稱,該模型在保持高保真度的同時,將參數量控制在0.5B級別,顯著降低了硬件部署門檻。更值得關注的是,模型支持完全本地化運行,用戶無需依賴云端服務即可完成語音克隆與合成,這在隱私保護要求嚴格的場景中具有重要應用價值。
同步開源的Fun-ASR輕量化版本則聚焦語音識別優化,通過參數壓縮技術將模型規模縮減至0.8B。測試數據顯示,新版本在保持識別準確率的前提下,推理速度提升40%,硬件資源消耗降低65%。該模型同樣支持本地部署與定制化微調,企業用戶可根據特定場景需求,快速訓練出行業專屬的語音識別系統。
技術社區對這兩款開源模型反響熱烈。多位獨立開發者在實測后表示,Fun-CosyVoice的跨語言能力突破了傳統語音克隆的技術邊界,其支持的方言種類超過20種,情緒表達維度達12類。而Fun-ASR的輕量化設計則解決了邊緣設備部署的痛點,在智能車載、物聯網設備等場景具有直接應用價值。目前兩個項目已在開源平臺完整公開代碼與訓練框架,配套提供詳細的技術文檔與開發指南。










