在實(shí)時(shí)互動(dòng)技術(shù)領(lǐng)域,聲網(wǎng)正憑借對(duì)話式AI戰(zhàn)略掀起新的浪潮。近期,這家以實(shí)時(shí)音視頻技術(shù)為核心的企業(yè)宣布年度服務(wù)分鐘數(shù)突破萬億大關(guān),同時(shí)發(fā)布多款對(duì)話式AI相關(guān)產(chǎn)品,引發(fā)行業(yè)關(guān)注。其戰(zhàn)略轉(zhuǎn)型的背后,既有技術(shù)迭代的驅(qū)動(dòng),也暗含對(duì)市場趨勢的精準(zhǔn)把握。
聲網(wǎng)的戰(zhàn)略轉(zhuǎn)向并非偶然。2024年,OpenAI通過ChatGPT的語音交互功能及與聲網(wǎng)合作推出的Realtime API,為行業(yè)樹立了標(biāo)桿。聲網(wǎng)AI RTE產(chǎn)品線負(fù)責(zé)人姚光華透露,正是看到對(duì)話式AI在C端和B端市場的爆發(fā)潛力,公司決定將資源向該領(lǐng)域傾斜。數(shù)據(jù)顯示,全球67%的企業(yè)已將語音AI智能體納入戰(zhàn)略核心,84%計(jì)劃加大投入,這為聲網(wǎng)提供了廣闊的市場空間。
技術(shù)層面,對(duì)話式AI的實(shí)現(xiàn)需要多環(huán)節(jié)協(xié)同。MiniMax開放平臺(tái)解決方案高級(jí)總監(jiān)馮雯解釋,系統(tǒng)需通過Voice Agent判斷說話者身份,經(jīng)ASR(自動(dòng)語音識(shí)別)轉(zhuǎn)化內(nèi)容后,由大語言模型處理,最終通過TTS(文本轉(zhuǎn)語音)輸出結(jié)果。每個(gè)環(huán)節(jié)都存在優(yōu)化空間,例如聲網(wǎng)新推出的對(duì)話式AI引擎2.0,通過支持更多ASR/TTS供應(yīng)商、優(yōu)化對(duì)話時(shí)機(jī)判斷等功能,顯著提升了用戶體驗(yàn)。
圍繞對(duì)話場景,聲網(wǎng)構(gòu)建了完整的產(chǎn)品矩陣。對(duì)話式AI Studio平臺(tái)允許用戶通過編排或API集成方式快速開發(fā)應(yīng)用;模型評(píng)測平臺(tái)則根據(jù)延遲、成本等指標(biāo)為客戶推薦最優(yōu)方案;開發(fā)套件進(jìn)一步降低了集成門檻。這些工具已應(yīng)用于多個(gè)熱門領(lǐng)域:AI語音助手(如ChatGPT、豆包)、社交陪伴(如Talkie、Soul)及智能潮玩(如珞博-Fuzozo)均位列聲網(wǎng)發(fā)布的場景熱力榜前三。
盡管市場前景廣闊,挑戰(zhàn)依然存在。馮雯指出,當(dāng)前對(duì)話式AI的端到端延遲仍需優(yōu)化,800毫秒是合理目標(biāo),但未來需進(jìn)一步壓縮。行業(yè)調(diào)研顯示,僅21%的用戶對(duì)現(xiàn)有AI對(duì)話體驗(yàn)滿意,用戶流失率居高不下。根本原因在于,人類對(duì)話中超90%的信息通過語調(diào)、表情等非語言要素傳遞,而現(xiàn)有技術(shù)對(duì)情感理解、上下文管理等復(fù)雜場景的應(yīng)對(duì)仍顯不足。
聲網(wǎng)創(chuàng)始人趙斌將對(duì)話式AI視為下一代AI基礎(chǔ)設(shè)施的核心組成部分。市場數(shù)據(jù)支撐了這一判斷:AI陪伴賽道規(guī)模有望從3000萬美元躍升至700億-1500億美元。聲網(wǎng)相關(guān)用量在2025年第三季度環(huán)比增長151%,顯示出強(qiáng)勁增長勢頭。財(cái)務(wù)表現(xiàn)上,公司2025年二季度營收3430萬美元,同比增長0.5%,凈利潤150萬美元,實(shí)現(xiàn)扭虧為盈。
這場轉(zhuǎn)型能否持續(xù)?聲網(wǎng)的選擇既面臨機(jī)遇,也需應(yīng)對(duì)巨頭競爭。其優(yōu)勢在于深耕實(shí)時(shí)互動(dòng)技術(shù)多年,構(gòu)建了低延遲、高并發(fā)的技術(shù)底座;挑戰(zhàn)則在于如何將技術(shù)優(yōu)勢轉(zhuǎn)化為商業(yè)成功。隨著對(duì)話式AI從概念走向落地,聲網(wǎng)與同行正站在一個(gè)充滿不確定性的新起點(diǎn)上。











