作者:核心期刊目录查询发布时间:2020-04-27
图书馆作为人类文化遗产长期保存的文献机构,当面临人类语言濒危消亡的时候,理应承担抢救和保存的责任和义务。经过长期的文献资源建设的积累,我国图书馆大都收藏了一些濒危语言方面的纸质文献,有些图书馆也收藏了濒危语言的音像文献。但是,绝大部分图书馆在面对所在区域的濒危语言抢救与保护,更多的是侧重于文献收集,对于建设原始态的语音语料数据库则是重视不够。
1建设濒危语言数据库的难点
由于土家语缺乏书写系统,导致没有文字系统的土家语在进行语料的采集和数字化方面困难重重,因此,对土家人的语音语料收集是唯一能长期保存土家语原始素材最为有效的方法。然而,对所搜集的语音语料要达到面向研究者、学习者开放,就必须建设语言数据库。纵观国内建设土家语语音语料数据库,发现有如下难点。
1.1懂土汉双语的人才少
根据笔者对湘西七县一市实地调研发现,会流利讲土家语的原生居民非常少,且大都为70至80岁的老人。据田荆贵、叶德书、邓佑玲、李敬中等两代土家语专家深入走访统计,湘西地区会操用土家语的人数从20世纪50年代的50万人,到80年代的42万人,到21世纪初不足10万人。邓佑玲通过调查发现,20世纪80年代还有土家语单语人,到20世纪末单语人基本消失。2011年杨再彪通过对土家语北部方言和南部方言使用人口调查,认为在湖南西部地区土家语使用总人口大概在6.5万人左右,统计时把只会讲少量土家语,只能对付简单日常用语的人群计算在内,事实上流利的土家语使用者远远小于上述统计数据[1]。湘西土家族苗族自治州民族事务局2010年对土家语主要县市进行调查,发现会操用土家语的总人口不足3万人,分布在龙山、永顺、古丈、保靖偏僻村寨,其中九成以上为土汉双语兼用人。《湘西土家族苗族自治州人民政府办公室关于认真做好土家语苗语抢救保护传承工作的若干意见》文件中声称,截止2008年底,常用土家语交际只有2.6万人(其中1.5万人集中在龙山县靛房镇、他砂乡),占全州土家族人口的2.01%。
1.2语音语料收集难度大
图书馆对土家语言材料的收集主要来自3个方面:①收集前期研究者开展课题研究所收藏的早期音像材料,这些材料主要为磁介质或光介质文献,大都没有经过保护措施,存在霉变、消磁、氧化问题,一般很难地进行数字化处理,并且由于是私人收藏,收集难度大;②收集民族地区区域内民委等相关机构存档的音像材料,相关机构存档的土家语言资料大多为纸质文献,数字化的数据库、有声资料库等有声语料库建设还处于试行、摸索和初步架构的阶段,且存在音视频数据容量大、涉及知识产权等问题,收藏机构担心资料外传,给收集也带来了很大的困难;③深入土家语村寨进行原始的语音语料的收集,由于土家语的深度濒危的生态环境,能够自如运用土家语进行交流的土家族人越来越少,在语音数据库建设中,发音人的选择至关重要。一般原则是挑选口齿清晰、语速适中、熟练使用本族语且愿意主动配合调查的母语发音人。土家语发音人大多年逾古稀,受汉语影响语言结构不稳定,变读现象较多,声调很不稳定,音质和发音很难达到理想要求[2]。
1.3记音、标音难度大
对土家语的记音、标音需要具备熟练掌握国际音标,有很强的听音、审音能力,并且熟悉电脑操作,这样素质俱全的人很难找到,图书馆馆内几乎没有样的人才,需要借助熟悉土家语语言的研究者。在语音标注时,实际发音的IPA标注、正则发音的IPA标注、汉语直译等标注信息要一一层级对应。另外土家语濒危语言数据库除了面向专业研究人员外,还要面向学习土家语者,因此必须解决专用标记和通用标记之间的转换问题。语音数据库的语音标记用的是Praat软件中Sampa符号,在实际查询和使用过程中需要对Sampa符号、IPA符号进行转换[3]。因此,建设大规模语音数据库需要专业人士记音、标音及他们长期稳定的工作状态,以便于存储发音人属性素材,发音人文本素材,实际语音素材及声学分析数据。
2建设土家语数据库的对策
笔者通过国家图书馆与吉首大学图书馆的馆藏目录检索,以“土家语”作为题名或主题词进行检索,发现国家图书馆收藏土家语方面的文献有49种,其中专著37种,博硕学位论文12种;吉首大学图书馆收藏土家语方面的图书有35种。通过比较发现吉首大学图书馆收藏土家语方面的文献相对齐全,在土家语文献收藏方面仅次于国家图书馆,并且学校有彭秀模、叶德书、杨再彪、鲁美艳等一批本地籍的研究土家语的专家和学者。但是,针对濒危土家语,如果只用文字记录土家语是不够的,还必须通过用语音、国际音标、录像等形式进行记录。
2.1收集土家族原生态的土家语歌舞素材
土家语不仅是土家族的日常生活交际语言,也是土家族文化的重要载体,如土家族原生态的“梯玛神歌”、“摆手歌”、“茅古斯”、“哭嫁歌”等必须用土家语才能表演出来。在神话传说方面,收集用土家语讲述《开天辟地》、《洪水的故事》、《补所与雍尼兄妹成亲的故事》等音视频资料;在人物历史方面,收集用土家语讲述的《八部大王的故事》、《向老官人》、《彭公爵主》、《斯兰卡普》等音视频资料;在生活故事方面,收集用土家语讲述的《咚咚喹的故事》、《虱子和跳蚤的故事》、《稻草人的故事》、《鸟的故事》等。收集到的这些数据库原始素材贴近土家族人文化生活,有利于今后对土家族文化得到更好的保护和推广。
2.2收集土家语教学视频素材
戴庆夏认为语言传承主要依赖家庭传承和社交传承两种途径[4],但在这两种途径传承的空间和范围受限的情况下,通过学校和网络传承也不失为一种保护民族濒危语言的方法,但这种方法需要相应的教材和网络课件。2008年,湘西土家族苗族自治州政府在政策上,财力上支持土家语教学,如在土家语保存较好的龙山、永顺两县的土家语保存相对较好的靛房镇坡脚小学、靛房镇中学、靛房镇中心完小、他砂乡中心完小、对山乡初级中学(永顺县)实施“土汉双语双文教学试点”。为此,根据《土家语拼音方案》组织编写了《土家语课本》、《土家·汉双语读本》、《土家·汉双语双文读本》、《土家语常用口语半月通》教材,并录制了《土家语课本》(1-4册)光盘的远程教学视频课件。因此,通过尽可能收集更多的土家语课本及土家语教学视频,充实数据库教学资源是建设土家语语言数据库非常有效的途径。
2.3借鉴其他语料库技术成功经验
国家语委正式上线的语料库网站有《现代汉语语料库》、《古代汉语语料库》,前者为大规模的语料库,收录语料样本9487个,总字符数近2千万个(含汉字、字母、数字、标点等),总词语数1200万个(含单字词、多字词、字母词、外文词、数字串、标点符号等),总分词数15万个(含汉字的词语个数,不包括外文词、标点、数字串等)。后者收录7000万字,语料库未经标注,支持全文检索、模糊检索,支持语料出处。两种数据库均为文本语料,可实现在线语料分词、词性标注、汉语拼音自动标注、语料字词频率统计等功能。借鉴国家语委建设的语料数据库,我们可以将土家语建立语档数据库,首先搜集土家语语言语料的录音材料,收集到的音频视频语料需经过编辑、转写和标注才能立档保存。转写是对录音语用文字或书面符号同步记录,成为可阅读文本。土家语由于没有文字,除了用汉字转写外,用国际音标或拼音方案对录音进行标音,形成同步标音文本记录话语是必不可少的环节。当然如果是土家语标音文本材料,则只需要将其进行汉字标注。
2.4加大投入力度整合各方资源
少数民族语言语料库建设是一个长期的过程,如“蒙古语语料库”建设工程于2005启动,由内蒙古自治区政府批准立项建设,计划20年时间建成2亿词级的大型综合性语料库[5]。图书馆要建设好语料库,需要加大投入,调集、整合各方资源。在文献资料方面,除了利用馆藏土家语文献外,还要多方征集口语文献资料;在人员配备方面,除了图书馆馆员外,建库队伍还要配备土家语语言学专家,特别是精通语料库工具软件、数据库建库软件、全文检索软件多学科的语言学专家;在建设资金方面,由于建库是需要人力物力投入,并且持续性时间长,如果仅靠图书馆资金投入是不够的,需要积极争取政府投入资金。
[参考文献]
[1]杨再彪.湖南西部四种濒危语言调查[M].北京:民族出版社,2011:123~126.
[2]邓海龙.赣南客家方言语音语料库建设的必要性分析[J].语言文学研究,2016,(21):32~33:62.
[3]刘岩.关于中国少数民族濒危语言语音语料库的设计[J].中央民族大学学报,2006,(4):133~136.
[4]段金菊.信息技术在土家文化传承中的应用研究———以湘西“土家-汉双语双文教学试点”为例[J].贵州民族学院学报(哲学社会科学版),2011,(2):194~198.
[5]龙梅.基于蒙古语标注语料库的检索系统的设计与实现[D].呼和浩特:内蒙古大学,2014:23~26.
作者:刘喜球 单位:吉首大学
上一篇:文博单位文创产品开发
下一篇:台版中文期刊RDA特点