三 大数据背景下贵州民族语言文字信息化建设思路
在全省积极发展大数据的背景下,贵州民族语言文字信息化建设只有乘着发展的东风,借人、借物、借技术,抓住政策、把握政策、用好政策,才能得以快速发展。
(一)组建专业团队,加快少数民族文字信息化平台搭建
贵州省已建成首个国家级大数据产业发展聚集区且首次以大数据为主题举办了峰会和展会,马云、马化腾、郭台铭、雷军等科技界领军人物出席会议并演讲,数博会作为国内第一个大数据类型的展会,已签约包括阿里巴巴、微软等在内的国内外知名企业350余家。业界知名企业的加入势必会吸引大批科技人才到贵州发展,真正实现以“数据流”吸引“人才流”。贵州少数民族文字信息化平台搭建一直以来发展缓慢,就是因为懂民族文字的人不懂得信息技术,对于国际编码申报、编码字符集建设、字形标准制定、键盘标准制定基本不了解,而语言文字信息处理人才更多的关注点在汉字上,对少数民族文字关注不够。借大数据产业的发展,可以吸引更多的语言文字信息处理方面的技术人才,关注贵州,关注贵州少数民族语言文字,借助地方民族资源优势,结合贵州民族语言文字特点,组建多元专业的团队,更快更好地帮助贵州少数民族群众完成民族文字信息化平台搭建。
(二)制定严格的规范标准,借用已有资源和技术,合理构建民族语言文字资源库
贵州民族语言文字资源库的建设还处在起始摸索阶段,为了便于今后民族语言文字资源库的开发利用、资源库之间的交互共享,在建库初期,制定严格的规范标准、统一今后的运行操作环境是十分必要的。利用发展大数据的契机,请数据库建设维护方面有经验的公司团队协助贵州民族语言文字资源库建设者制定严格的规范标准,并成立统一的机构监督执行,将今后贵州民族语言文字资源库使用中可能碰到的问题尽量规避到最少。
首个国家级大数据产业发展聚集区的建立,为民族语言文字资源库的数据采集和数据储存提供了便利。对于民族语言文字资源库的建设,一方面要善于整合已有语言文字资源,实现高效数据转换,前沿信息技术的借用可为贵州民族语言文字资源库建设提供便利,贵州民族语言文字方面有一些资源,如有传统文字的少数民族有大量的民族文字文献,运用图像识别等技术,可以将纸质文献转换为电子资源储存利用;另一方面要运用现代技术手段快速获取资源信息,采集符合要求的高质量数据,贵州已建好的和正在建的民族语言文字资源库大都靠专家学者逐项收集材料并手工入库,这样收集的语料虽然精度高,但费时费力,现有的网络实时抓取技术就能辅助专家学者快速获取语料,并对语料进行实时更新,保证民族语言资源库的实效性、动态性、平衡性。民族语言文字资源库建设数据储存需要稳定可靠的服务器作保障,大数据产业发展聚集区的建立为数据储存提供了空间和设备等资源,也为后期数据维护、保证民族语言文字资源库的长期运行提供了可能。
(三)重视已有信息技术应用,深度挖掘民族语言文字资源库
如何将建好的民族语言文字资源库加工利用,是我们下一阶段需要考虑的问题。对于收集到的民族语言文字语料,我们不是要简单地储存保护,而是要进行深加工使其被更好地再次利用。对于中文信息处理的一些成熟技术,我们可以结合民族语言文字特点借鉴应用。如对收集到的语音材料,需要借鉴汉语语音分析的技术和软件,信息技术人才和懂得民族语言的人相互配合,进行切音标注,并进一步做声学分析,这些语料的加工都是为之后民族语言文字语音识别和语音合成技术做准备的。对民族文字材料的处理,也需要根据贵州每个民族的文字特点,做出符合民族文字规律的分词、词性标注、句法标注等相关算法,对民族文字资源进行深加工,将生语料转换为熟语料加以利用。此外,注意开发民族语言文字资源库的检索功能,不仅要做好基本字段检索,还应开发实现更具实用性的高级检索功能,让建好的民族语言文字资源库得到最大限度的应用。
(四)结合民族文化宣传,建设民族语言文字网站
贵州纯民族语言文字网站基本没有,主要原因是缺技术、缺人才、缺资金,曾经有本民族的有识之士兴办本民族语言文字的网站,但最终因以上问题停止。借助大数据产业发展的人才和技术,在民族语言文字信息化基础建设的基础上,结合民族文化宣传内容,搭建民族语言文字网站,并对网站记者和编辑进行信息化方面的相关培训,让他们成为复合型人才,将贵州的民族语言文字网站办好办活。这也是贵州民族语言文字信息化的一个重要直观的体现。
(五)结合民族语言文字特色,加速民族语言文字软件开发
软件的利用才是少数民族群众最直接感受到的自己语言文字信息化的部分,单靠懂民族语言文字的少数民族同胞是无法对软件进行开发的,但民族语言文字又各有特点,因此,要对民族语言文字软件进行开发,需要语言文字信息处理的技术人员在充分调研民族语言文字特点之后进行。贵州大数据产业的发展,将语言文字处理的技术和人才带到了贵州,贵州少数民族群众需要抓住机遇,加速民族语言文字软件的开发,这对于今后本民族语言文字的使用和保护都将意义重大。