“知识加工”的价值与贡献
作者:万建中  来源:中国艺术报

“知识加工”的价值与贡献

万建中(数字化工程传说组负责人)

  中国口头文学遗产数字化工程(一期)做了两方面的工作:一方面是技术加工,即将民间文学“三套集成”的县卷本(书面文本)转化成数字文本,这其中包括解决书面文本中的疑难字、方言字、异体字、缺漏子和错别字等文字处理方面的问题。另一方面是知识加工。这8 . 8亿多字的数字文本不能堆在一起,需要按照民间文学分类学和这些数字文本的实际情况进行分类。只有对数字化了的所有作品合理分类,才能有效阅读和使用这些数字文本。分类为两级,即一级和二级。一级有神话、史诗、歌谣、民间传说、民间故事、谚语、民间小戏、民间说唱11类,每个一级又分为若干个二级。二级目录设立及设立的标准,学者们经过反复讨论和论证,最后构建了符合民间文学“三套集成”县卷本实际的二级分类体系。

  有了二级分类, 8 . 8亿余字数字文本变得条理清晰起来。譬如,民间传说由人物传说、史事传说、风物传说。也就是说,民间传说可以分为三个筐,可以将所有的民间传说数字文本分别装在这三个筐里面。这样,就为我们查找、阅读和使用数字文本提供了极大便利。这种分类工作属于知识加工。哪篇作品应放在哪个筐里面,汉王科技有限公司的技术员工是无从知晓的。这一工作只有民间文学的专业人士才能完成。将116 . 5万篇作品分别放入相应的二级目录的“筐”里,工作量极为浩大。因为只有阅读了作品,才能确定这一篇作品应该归在哪一类,也就是放进哪个框里面。数字文本的二级分类已完成了1000本,余下待二期完成。二级分类是一个开放的系统,浩如烟海的民间文学作品都可以源源不断地、有条不紊地放入其中。

  通过二级分类,可以了解每一种类型的民间文学作品的具体状况和丰富程度,也为检索、查找具体作品和作品类型给予了科学化的程序。譬如,要查找关于诸葛亮的传说,可以在人物传说中查找;要查找关于长城抗战的传说,可以进入史事传说中查找。如果有数篇关于长城抗战的传说,这些传说之间就构成了异文关系,组合为“长城抗战类型”的传说。这就为学术研究提供了多种可能性。因为民间文学研究的往往不是单篇作品,而是一个类型。另外,民间文学分类体系在国际上都是通用的。在全世界流传一些同一类型的神话、史诗、传说、民间故事、歌谣、谚语等等,通过类型比较分析,可以认识到中国民间文学的丰富性、独特性和在世界民间文学领域的重要地位和价值。