在廣州大學舉辦的一場重要學術活動中,一項突破性成果引發廣泛關注。粵語語料庫建設與大模型評測實驗室正式推出AI-DimSum多模態粵語語料庫平臺,為全球上億粵語使用者的數字化發展開辟新路徑。這一創新成果針對粵語在網絡空間面臨的資源稀缺問題,構建了覆蓋語音、文字、影像的完整數據生態體系。
據項目負責人齊佳音教授介紹,該平臺以服務數字中文戰略和粵港澳大灣區文化數字化建設為目標,通過標準化采集流程、可追溯數據管理和智能化服務接口,形成具有嶺南文化特色的AI應用基礎設施。平臺突破傳統語言資源庫的單一功能,將數據采集、標注加工、模型適配等環節整合為模塊化系統,實現從原始素材到智能應用的完整閉環。
在數據儲備方面,平臺已形成多維度的資源矩陣。文字庫收錄超過百萬字的新聞報道、文學作品等文本資料;語音庫完成3000小時高保真語音標注,同步積累超1TB音視頻素材;影視庫特別收錄《功夫熊貓》《大圣歸來》等熱門作品的粵語版本,并配備專業字幕標注。更值得關注的是,平臺開發了包含20萬道題目的評測體系,可對粵語AI模型進行多維度安全評估。
這個由七個子系統構成的智能平臺,創新性地引入確權檢索機制和質量評估模塊。通過語料采集、智能標注、模型對接、版權管理等功能的有機整合,既保障數據資源的合法流通,又提升AI訓練效率。應用商店模塊的設立,則為開發者提供了便捷的模型調用和成果發布渠道,形成完整的產業生態鏈。
業內專家指出,AI-DimSum平臺的推出不僅解決了粵語數字化發展的基礎設施難題,更通過海量優質語料的積累,顯著增強粵語在人工智能時代的表達能力和文化傳播力。這種將語言資源保護與數字技術創新相結合的模式,為其他方言的數字化發展提供了可復制的解決方案。











