试论中医药文献的数字化研究

时间
2008-12-09

摘要:本文对中医药文献数字化的必要性、艰巨性、广泛性进行了论述,同时指出中医药文献数字化成果应用中,使用者的主观能动性是起关键作用的。

中医药文献数字化是当前中医药文献研究中的重要内容。虽然利用计算机技术进行中医药文献研究已经有大约20年的历史,也取得了相当的成果,但数字化的概念却是近年来提出的。数字化文献与电子版文献在概念上并不相同。电子版文献一般只具备简单的检索、打印、编辑功能(有的电子版文献没有编辑功能),是纸介质图书的简单延伸,而数字化文献则可以进行知识的发掘、分析、重组和利用。简单地做个比喻,电子版文献主要承续了文献的形貌,而数字化文献则是在承续文献形貌的前提下揭示其蕴涵的精神。以下就中医药文献数字化研究的有关问题略述个人观点如下。

中医药文献数字化的必要性

中医药文献数量巨大,其中所蕴涵的科学信息更是难以计量。根据《全国中医图书联合目录》的著录,现存1949年以前的中医药文献有12000多种。由于中医药学是一门传统的科学,其整体理论构架以及医家个人的学术思想和经验都具有明确的传承性和连续性。要发展中医药学术,就必须对作为中医药学术主要载体的中医药文献进行整理,对其中蕴涵的科学信息进行发掘和利用。建国以来几次很有规模的中医药文献整理取得了一定的成就,经过整理的中医药文献已经超过千种,传统文献学的研究方法在这一方面得到了广泛的应用。

我国的文献整理大约始自西汉末年的刘向,由刘向、刘歆父子先后主持的文献整理是中国文化史上无庸置疑的盛事。西汉以后,历代皆有文献整理之事。魏晋之间王叔和整理编次《伤寒杂病论》,南朝齐梁间全元起撰《素问训解》,以及中唐时期王冰对《素问》的整理,都是中医药文献整理的经典之例。传统文献学的方法经过清代乾嘉学派的总结发挥,达到了炉火纯青的境界。我们今天所用的文献学方法如目录、版本、校勘以及文字学、训诂学、音韵学的知识,可以说都是沿袭而来的。这些方法对于中医药文献特别是中医古籍的整理来讲是必须的,是没有任何理由可以指谪的。但是,中医药学毕竟是由历史传承而来的,与现代科学的概念是有区别的,也正因为如此,中医药学的学术发展才显得十分迫切。如果仍然单纯采用传统的方法来整理中医药文献,首先在时间上必定旷日持久,显然无法满足中医药学术发展的需要。其次,传统的文献整理方法主要是针对具体文献而言的,即使有足够的时间、物力、财力和人力将中医药文献全部整理一遍,相对于具体的文献也只是增加了一个新的版本,不同的文献彼此之间仍然是一种相对无序的关系,其中所蕴涵的科学信息仍然不易被人们获取和利用。再次,中医药学在中国古代传统文化中经历了漫长的历史,其思维模式、理论结构、说理方法在今天已经失去了与之相适配的文化环境,现代人所接受的教育或者常识已经很难理解中医药学的理论和经验。即使是经过专门学习,也还需要较长时间的实践经历,才能适应按照传统方法对中医药文献进行整理的工作。专门人才的缺乏和工作需要的迫切也是一个突出的矛盾。随着电子计算机技术的介入,中医药文献整理出现了新的气象,如原文检索系统的开发、电子版图书的出版等,为中医药文献整理注入了新的活力,近年来建立在知识发现、知识发掘理念上的知识库技术成为中医药文献整理的前沿。浩如烟海的中医药文献和其中所蕴涵的科学信息是中医药学术发展的科学基础,对其进行整理、发掘、重现和利用是促进中医药学术发展的必备前提,从目前来看,知识库技术是达到这一目标的较好选择。由于知识库技术具有强大的数据采集、数据存储和知识发现、知识发掘功能,在统一的规划和合理的设计指导下,结合传统文献学的工作方法,因而有可能在相对较短的时间内完成中医药文献整理的主体或主要工作,使中医药文献中所蕴涵的科学信息能够方便快捷、直接有效地为人们所利用,为中医药学的学术进步提供可靠的科技信息平台。

中医药文献数字化的艰巨性

既然中医药文献数字化是将中医药文献和其中所蕴涵的知识通过数字手段再现,自然就面临两个关键的问题,一个是手段,一个是内涵。

就手段而言,通过数字技术将中医药文献中的知识、信息进行重现、整合和利用是完全可能的,计算机技术和IT技术的进步已经为这一目标的实现提供了确实可行的手段。就内涵而言,要保障入库的信息是真实可靠的,就需对数字化处理之前的中医药文献进行加工。这种加工的过程是必须的,因为不可能将未经加工的文献照搬到计算机系统之中;这种加工的任务也是艰巨的,因为它需要用传统文献学的知识和方法对文献进行不容含糊的处理。对数字化处理之前的中医药文献进行加工,实际上就是文献学研究,或者叫文献整理,包括目录、版本、校勘、文字、音韵、训诂之类的文献学知识都是必然要使用到的。如果这种加工过程缺失,或加工的质量差,数字化成果的可靠性和真实性势必被削弱。所以,中医药文献数字化实际上是在传统的中医药文献整理基础上的一种进步而已,它并没有脱离文献整理的范畴。如果说近20年来按照传统的方法整理中医药文献很艰难,那么中医药文献数字化所要经历的路程可能要更艰难,因为它既涉及到计算机技术的复杂应用,又必须立足于传统文献整理的基本方法。

再者,中医药学术是植根于中国传统文化的传统科学,同时与众多的人文学科有着密切的关联性,因而即使能够娴熟地使用文献学的方法,也不一定能保证文献整理的高质量。仅仅做一个文字规范、标点准确的文本,所需的知识也决不仅限于目录、版本、校勘、文字、音韵、训诂等方面的知识。对文献进行标点,虽然整理者没有说什么,但标点的使用却反映了整理者的一切思想。《吕氏春秋·察传》中记载了孔子对“一足”讲解,说明标点并不是一件简单的事。《素问•生气通天论》中的“高粱之变,足生大丁”,王冰解“足”为脚的意思,说明即使是大学问家也会有小的疏漏。新校古籍在文字规范、标点使用、文义理解方面也常有不妥之处。由于中医药文献数字化是要为中医药学术的发展提供科学信息平台,使用者要从中发掘知识,获得信息,并据以进行科学研究,那么其可靠性和真实性无疑是第一位的。要保障这个科学信息平台的真实性和可靠性,可能更重要的是文献的前期加工,因为这种加工是信息获取、知识发现的前提。加工者只有在正确理解原文的前提下,才能进行知识发现和提取,才能使这种正确的信息或者知识经过数字化处理以后得以重现。如果对原文的理解有偏差,必然不能发现其中所蕴涵的知识,必然会提取出不符合原文意思的信息,从而导致最终的结果出现偏差。因为前期加工既是必须的,又是极其繁复的,需要专业人员做大量的细致工作,所以中医药文献数字化尽管意义是空前的,任务的艰巨程度也是空前的。

中医药文献数字化的广泛性

由于中医药文献数字化以计算机技术和IT技术为依托,以知识库为模式,能够对数百部甚至数千部中医药文献进行文献学加工和数字化处理,使得其所涵盖的中医药文献具有前所未有的广泛性。理想的境界是能够涵盖全部中医药文献,但要涵盖全部中医药文献,便不可避免地要遇到时代差异的问题。中医药文献经历了漫长的历史过程,不同时代的文献不可避免地带有时代的印记。如果强调彼此的差异性,那么任何一部中医药文献都与其他的文献不同。如果强调彼此的类同性,除了以内容为主要的判定标准外,时代也是重要的指标。尽管任何一部文献都可能是承前启后的,但某一历史时期的文献总是跟同时代的文献有较多的类同性,而与另一历史时期的文献有较大的差异性。若将中医药文献做一大致的时代划分,应该划分为三个阶段,即古代文献、近代文献和现代文献。古代文献指民国以前的文献,近代文献是民国时期文献,而现代文献就是民国以后的文献。之所以这样划分,是因为中医药学在民国以前基本上是在中国传统文化的环境中嬗变,民国以后则受到现代医学和其他现代科技文化的强大影响,而民国时期的中医药学无疑就是两者之间的过渡,其文献的学术内涵和语言使用既不同于古代文献,也不同于现代文献。例如民国间何廉臣所辑的《重印全国名医验案类编》中收录了张锡纯治疗咳嗽的一则医案,张锡纯在案中提到了“硫养”一词,恐怕既不见于古代文献,也不见于现代文献。至于现代中医药文献中已经参入了相当多的现代医学内容,更是古代文献所没有的。正在进行的“中医药科技信息数据库”采用知识库的模式,应该以能够对全部中医药文献进行文献学加工和数字化处理为总体目标,并根据中医药文献的时代特点,在总体设计之下分别设计针对不同时代中医药文献的具体工作方法,使中医药文献数字化的广泛性得以进一步展现。

中医药文献数字化成果的应用前景

中医药文献数字化的成果是形成一个容量巨大、检索方便,可以进行知识发掘的智能化数据库,其科学性和先进性在同类工作中是显而易见的。但是,无论数据库的技术如何先进,容量如何巨大,检索如何方便,所获得信息如何全面真实,数据库毕竟只是一个存储数据的仓库,决定其最终价值的是人对数据库的使用。尽管中医药文献数字化的过程还在进行之中,如何使用的问题已经摆在了我们的面前。例如本草文献部分,几乎每一部书都有关于人参的记述,内容涉及人参的名称、产地、性味、功效、主治等,即使按照数据库所设计的自然语言检索方法去检索,检索所得的信息仍然需要使用者去分析,在分析中发现知识,发掘知识,总结规律,从而获得真实的科学数据,为研究工作提供全面的信息支撑。

近年来建成的中医药方面的数据库数量不少,但真正得到广泛使用的并不是很多,库容相对较小、资料门类不全、检索手段滞后以及费用方面的问题成为制约数据库建设和使用的重要因素。“中医药科技信息数据库”的建设在总体设计上考虑了上述因素,下来的关键便是如何使用的问题。关于使用,可以分为两个层面。一个层面是需要通过计算机手段解决的问题。“中医药科技信息数据库”的库容巨大,检索所得的信息数量自然也会比较大,比如人参的性味,在200种本草文献中可能有数十条信息,而在数千种中医药文献中可能就会有上百条甚至数百条信息,如果让使用者进行人工分析筛选,仍然需要花费一定的时间和精力。这类对检索所得的信息进行进一步的处理的问题似乎可以由计算机来解决。再一个层面是必须由使用者自己来解决的问题。使用者要做什么研究项目,要检索什么信息资料,是使用者的事,与计算机无关。计算机可以也只能给使用者提供最大的方便,但毕竟不能代替人脑的思考。借助数据库的帮助进行科学研究,使用者的主观能动性是起关键作用的。

在知识膨胀、信息爆炸的时代,使用数据库进行信息检索、知识发现、科学研究是合理而又便捷的途径。要促进中医药学术的发展,中医药文献数字化是必须的,但任务是艰巨的。在工作的过程中似应考虑其信息数据进一步的广泛性,并在其成果的应用方面做一些宣传和推动工作。

陕西省中医药研究院(西安,710003)焦振廉