meta公司近日在音頻技術領域取得重大突破,正式推出全球首款統一多模態音頻分離模型——SAM Audio。該模型通過融合文本、視覺及時間維度提示,實現了對復雜音頻場景的智能解析,標志著音頻處理技術向人性化交互邁出關鍵一步。
研發團隊介紹,SAM Audio的核心創新在于其感知編碼器視聽系統(PE-AV),這項技術源自meta今年早些時候開源的感知編碼器模型。通過將計算機視覺的精準識別能力與音頻處理深度結合,PE-AV如同為系統裝上"數字耳朵",能夠準確捕捉聲源特征。在實際演示中,用戶僅需點擊視頻中的吉他,系統即可瞬間分離出純凈的吉他聲,即便在交響樂合奏等復雜場景中依然保持高精度。
該模型提供三種創新交互模式:文本提示支持用戶輸入"嬰兒啼哭"或"汽車引擎"等關鍵詞提取特定聲源;視覺提示允許通過點擊視頻中的發聲物體實現音頻分離;行業首創的時間片段提示功能更可標記特定時間段,實現跨時長音頻處理。例如在播客錄制場景中,用戶可一次性標記所有出現手機鈴聲的時間段進行批量消除。
為驗證模型性能,meta同步推出兩大評估體系:SAM Audio-Bench作為首個真實場景音頻分離基準測試,涵蓋演唱會、街頭采訪等20類復雜聲學環境;SAM Audio Judge自動評估模型則通過機器學習構建音質評分標準,實現毫秒級處理效率。這些工具將為行業提供標準化的性能評估框架。
技術文檔顯示,PE-AV系統在保持輕量化設計的同時,實現了參數效率的顯著提升。相較于傳統音頻處理模型,其計算資源消耗降低40%,分離精度提升27%。該成果已應用于meta旗下多款產品的音頻優化模塊,開發者可通過開放接口調用核心功能。










