
在人工智能浪潮席卷全球的今天,我们关注的焦点往往集中在那些被广泛使用的语言。然而,在全球拥有上亿用户的粤语,却长期面临着“低资源语言”的困境,其在数字世界的地位与实际影响力并不匹配。12月6日至7日,在广州大学举行的第十届语言服务高级论坛上,一个名为AI-DimSum的多模态粤语语料库平台横空出世,它不仅是粤语数字化进程中的一个里程碑,更预示着古老方言如何在新时代焕发生机。
打破“数据壁垒”,赋能粤语AI应用
长期以来,粤语在人工智能领域的发展受限于数据资源的匮乏。尽管用户众多,但缺乏系统化、标准化的语料库,使得粤语在自然语言处理、语音识别等关键技术上的应用开发举步维艰。广州大学的粤语语料库建设与大模型评测实验室正是看到了这一挑战,他们推出的AI-DimSum平台,正是为了系统性地解决粤语的“低资源”问题。
该平台并非简单地收集零散数据,而是围绕“数字中文建设”和“大湾区文化数字化”的国家战略需求,构建了一个集岭南文化特色与人工智能应用需求于一体的多模态数据生态系统。齐佳音教授介绍,平台的建设遵循了“标准先行、数据可溯、服务可用”的原则,力求打造一个既有学术价值,又能实际应用的粤语数据基础。
一体化基础设施,让数据“活”起来
AI-DimSum平台的核心优势在于其一体化、模块化的基础设施设计。它涵盖了从语料采集、标注,到对接大型语言模型、确权检索,再到质量评估、管理以及最终的应用发布等七个关键子系统。这意味着,一个项目可以从源头上的数据采集,一直贯穿到模型训练、应用推广的整个生命周期,大大提升了效率和便捷性。
海量多模态数据,为AI训练注入“粤语灵魂”
为了支撑起强大的AI应用,AI-DimSum平台汇聚了海量的多模态数据资源,为粤语大模型的训练提供了坚实的基础。
- 文本数据: 平台收录了超过100万字的各类文本,涵盖了新闻报道、文学作品等多种体裁,保证了语言表达的多样性。
- 音视频数据: 平台完成了3000小时的高保真语音标注,并收集了1TB以上的音视频资料,这是进行语音识别和情感分析等任务的关键。
- 影视内容: 尤其值得一提的是,平台还收录了《功夫熊猫》、《大圣归来》、《外来媳妇本地郎》等经典影视作品,并配有粤语字幕和详细标注。这不仅丰富了语料库的娱乐性和文化性,也为粤语在影视领域的AI应用提供了宝贵素材。
- 模型评测: 为了确保粤语大模型的质量和安全性,平台构建了超过20万道粤语大模型内容安全的多模态评测题目,为模型的性能评估提供了科学依据。
粤语的未来:AI时代的文化传承与创新
AI-DimSum平台的发布,标志着粤语在全球人工智能时代迈入了新的发展阶段。它不仅将极大地提升粤语在大模型应用中的能力,更重要的是,它为粤语这一承载着深厚历史文化底蕴的方言,在数字时代提供了强有力的保护和发展动力。
未来,我们可以期待更多基于AI-DimSum平台的粤语应用出现,比如更精准的粤语语音助手、更智能的粤语翻译工具、更具文化特色的粤语内容生成等。这不仅是对粤语文化的一次有力赋能,也是中国在推动多语言数字化、保护文化多样性方面的一次重要探索,为全球其他“低资源语言”的数字化转型提供了可借鉴的范例。