12月6日至7日,第十屆語(yǔ)言服務(wù)高級(jí)論壇在廣州大學(xué)舉行。會(huì)上,粵語(yǔ)語(yǔ)料庫(kù)建設(shè)與大模型評(píng)測(cè)實(shí)驗(yàn)室重磅發(fā)布了其研發(fā)的 AI-DimSum 多模態(tài)粵語(yǔ)語(yǔ)料庫(kù)平臺(tái),標(biāo)志著在全球擁有上億用戶的粵語(yǔ)在數(shù)字化發(fā)展中邁入新階段。
突破低資源困境 廣州大學(xué)教授齊佳音介紹,粵語(yǔ)在網(wǎng)絡(luò)世界中屬于“低資源語(yǔ)言”。該平臺(tái)圍繞“數(shù)字中文建設(shè)”和“大灣區(qū)文化數(shù)字化”需求,構(gòu)建了一個(gè)基于嶺南文化、面向AI應(yīng)用的多模態(tài)語(yǔ)料數(shù)據(jù)生態(tài)系統(tǒng),遵循“標(biāo)準(zhǔn)先行、數(shù)據(jù)可溯、服務(wù)可用”原則。
一體化、模塊化基礎(chǔ)設(shè)施 AI-DimSum平臺(tái)由語(yǔ)料采集、標(biāo)注、大模型對(duì)接、確權(quán)檢索、質(zhì)量評(píng)估、管理及應(yīng)用商店等七個(gè)子系統(tǒng)構(gòu)成,實(shí)現(xiàn)了從數(shù)據(jù)采集到模型接入與應(yīng)用發(fā)布的一體化、模塊化流程。
海量語(yǔ)料支撐 該語(yǔ)料庫(kù)匯聚了豐富的多模態(tài)資源,為AI訓(xùn)練提供堅(jiān)實(shí)基礎(chǔ):
文本:超過(guò)100萬(wàn)字(涵蓋新聞、文學(xué)等)。
音視頻:完成3000小時(shí)高保真語(yǔ)音標(biāo)注及1TB以上音視頻資料。
影視:包含《功夫熊貓》《大圣歸來(lái)》《外來(lái)媳婦本地郎》等帶有粵語(yǔ)字幕與標(biāo)注的作品。
評(píng)測(cè):構(gòu)建了超過(guò)20萬(wàn)道粵語(yǔ)大模型內(nèi)容安全多模態(tài)評(píng)測(cè)題。
該平臺(tái)的發(fā)布將極大提升粵語(yǔ)在大模型時(shí)代的應(yīng)用能力和文化傳承價(jià)值。











