数字人文(digital humanities)是近年在人文学科各领域中逐渐兴起的研究趋势,国内外学界关注甚多。但数字人文到底是什么,为何出现,又能为人文研究带来什么,依然众说纷纭。本文试图对以上问题进行剖析。

数字人文是什么

一般来说,数字人文的前身是“人文计算”(humanities computing)。人文计算的提出,代表着人文研究中运用电脑运算的技术已经形成一套理论化的思考。学界普遍认为,人文计算的起源可以追溯到意大利神父罗伯托·布萨(Roberto Busa,1913-2011)在1949年开始使用电脑处理神学家阿奎那(Thomas Aquinas)的全集,半自动地生成其中中世纪拉丁文字词的索引。这项工作历时数十年,并曾得到IBM公司的协助。这种取向影响了不少文学研究者,使他们利用电脑处理机器可读文本的内容,对大规模作品作出分析。

随着数字技术更新迭代、数字化内容不断增加,这种研究趋势得到了更广的应用,其影响遍及各个人文学科。大约在2000年以后,“数字转向”(digital turn)时代到来,个人电脑变得十分普遍,成为大多学者能方便使用的设备。“数字人文”在这个过程中逐渐取代了人文计算的说法。 综合相关论述,数字人文至少和人文计算有着以下不同:第一,它拥有更庞大的数据量;第二,它不只是强调计算,还经常应用其他研究手段;第三,进入这个领域的门槛变得更低,并且产生了比人文计算大得多的学术影响。

数字人文可被定义为一套提出、重新定义和回答学术问题的更智能办法。所谓“更智能”,不只意味着文科学者驱使数字技术(尤其是电脑数据库)作为外在的工具,来回答他们过去已经提出的学术问题;也应该包含学者由于受到数字技术和思维的影响,而提出新课题,甚至产生新的研究范式。因此,数字人文研究往往包含两个层面:一是学者一直在做的研究工作,例如对大量资料进行爬梳,找出有用的记载。没有数字技术,学者同样可以做得到,但技术可以帮助学者更有效率地执行这些研究的步骤。二是学者不利用数字技术就无法做到的一些研究工作,例如同时比对上千条数据,辨识其中模式。

简而言之,数字人文研究的内涵是强调人脑和电脑哪一个在什么时候、什么情况下更智能和更能发挥作用。当然,不是在所有情况下都是电脑最智能的,有时候人脑可以更妥善地处理问题。所以,在适合使用电脑的时候,数字人文研究者会加以利用;人脑更能发挥优势的部分,就以学者本身的学术素养来处理。 从研究范式的角度而言,这也是大数据时代“远读”(distant reading)策略与传统印刷媒介时代“细读”(close reading)方法的结合:计算机及计算方法能帮助学者在纷繁复杂、数量庞大的信息中快速梳理、定位和把握议题,宏观地“看到”一个学科甚至多个学科脉络中的焦点问题;同时又需要学者发挥个人学养所长,微观地去“探究”复杂信息交汇凸显之处的内在肌理与症结。

数字人文浪潮的到来

按照数字人文学者苏珊·霍基教授的划分,数字人文的发展(主要在北美及欧洲地区)可以分为四个阶段。1949年到1970年代主要还是在语言学研究方面。开始使用基于穿孔卡和磁带存储的计算机对古典文本进行语汇索引、作者身份界定等文本分析研究工作,其间最具代表性的文档索引方式为COCOA,出现了首个主题研讨会、学术期刊和专门的研究机构。[参见《数字人文指南》(A Companion to Digital Humanities, ed. Susan Schreibman, Ray Siemens, John Unsworth, Oxford: Blackwell, 2004)。

1970年代到1980 年代中期是“联合”阶段。伴随计算机的逐渐普及和一系列在英美召开的定期研讨会,数字人文学者之间、计算机和人文学者(主要是语言学学者) 之间进行了联合,以最优化资源投入使研究成果最大化,以COCOA 二代、牛津语汇索引程序(OCP) 和希腊语库(TLG)为代表的一系列程序被开发出来。学者主要致力于语料库的建设与对文本创建、维护和存储方面的程序进行联合开发和推广。

1980年代中期到1990 年代早期被霍基教授称为“新发展”阶段。其间个人计算机的出现促使更多的学者通过更便捷、有效和创新的方式进入数字人文领域,而电子邮件,特别是1987 年Humanist 邮件群的出现,使得数字人文领域的学术共同体得以在网上活跃交流,更具备影响力。在这个阶段中,最重要的成果是文本编码倡议(TEI),体现为《电子文本编码和交换指南》(Guidelines for Electronic Text Encoding and Interchange) 。另一个值得关注的现象则是计算语言学逐渐从计算人文学中独立出来。

1990年代早期到现在的“互联网”时期是数字人文的成熟阶段。由于互联网特别是万维网的出现,使得计算机,特别是图形界面的计算机及超文本成为任何人都可以使用和介入的资源,大量冠名为“档案”的学术出版和研究项目在网络空间中出现,并聚集了学者、编辑、图书馆员和程序员等一批致力于数字人文研究的团队。高校出现了数字人文的专业,艺术领域也出现了相关项目,数字人文的边界得到了极大的拓展。

从近几年由“数字人文组织联盟”(Alliance of Digital Humanities Organizations) 组织的、全世界最大的数字人文大会的日程和发言里也可看到,数字人文的边界扩展到了一个非常宽泛的范围,基于自然语言分析、统计方法的“传统”的文本分析已经进入方法的扩散和多样化的阶段,特别是随着R语言、Python语言在人文学者中的日益普及,学者们越来越多地自行开发各种“定制化”的工具包来解决人文研究中的特定问题。而GIS技术和HGIS也被大量应用,成为数字人文中的基本方法与途径之一。相对较新的VR和3D建模也开始从考古、建筑走向了历史、文学与艺术领域。图像识别及数据可视化也成了这几年的热点议题。

中国高校的第一个数字人文中心是武汉大学在2011年建立的,至今仍是中国大陆地区唯一的数字人文中心,是数字人文中心网络(centerNet)旗下亚太数字人文中心网络(Asia-Pacific DH centerNet)的成员。在组织形式上稍有不同的另一机构是南京大学的“数字人文与超媒体GIS工作室”,着重对历史地理信息系统的建设和研究。台湾地区则主要有台湾大学长期投入、项洁教授领衔的数位人文的研究,2007年已成立“数位典藏研究发展中心”,2012年改名为“数位人文研究中心”;而台湾政治大学既有金观涛、刘青峰两位教授开创的数字人文计划,也成立了文学院下属、郑文惠教授领导的“数位人文研究中心”。香港的公开大学也在2015年成立了“数码文化与人文学科研究所”,举办相关会议,推动数字人文的学术交流。而从2015年开始,包括上海大学、北京大学、南京大学、南开大学、清华大学等在内的多个内地高校都举办了与数字人文相关的主题会议,引起了学界的诸多关注,各院校数字人文相关的研究项目也越来越多。

尚未完成的知识生产方式转型

数字人文不是凭空出现的——如果以史学研究为例的话,数字人文的一些研究项目正是建立在史学的悠久学术传统之上的。以哈佛大学包弼德(Peter K. Bol)教授领导的“中国历代人物传记资料库”(CBDB)项目为例,收录数据时就利用了大量学界的既有成果,例如前辈学者对各类古代官员资料的系统整理和考证,方便学者利用。

但伴随数字人文在国内的日益热门,也有不少学者提出疑问。数字图书馆、数字档案馆、数字标准化、计算语言学、GIS、HGIS,这些国内已经有学者做了很多年了,为什么现在还要提“数字人文”?这个专门的提法有什么意义吗?能带来什么新鲜的内容?尤其是对于一向走在“数字学术”(digital scholarship)前沿的图书馆学及情报学,本身就是基于计算的“计算语言学”和已经大量使用数据的量化历史研究,强调“数字人文”似乎是锦上添花的事情。综合这几年看到的国内外已发表的相关讨论或者会议上的交流情况,笔者的思考是,“数字人文”强调的是面对尚未完成的数字革命中的知识生产方式转型,其面对的是未来的知识体系及方法的建构,其回应的是大数据时代基于学者导向(research oriented)的研究需求与基于资源共享的网络基础设施建设(cyberinfrastructure),其建设的是面向数字出生(born digital)的新生代人类的认知方式系统与路径。使用“数字人文”这个术语不是为了改头换面来强行圈地,而是一种处于更大愿景下的策略考虑,是顺应数字时代而生的。

正如金观涛教授在《数位人文研究的理论基础》中提到的:“因数位技术在大量文本分析中的地位直接和判定知识真实性有关,故它在人文研究中将比自然科学和社会科学中更具中心位置。随着适应于各类人文研究(如语言学、历史、文学、传播、民间文化等)不同研究需要的各类专业电脑数据库的建立,以及使用IT技术对文本深度挖掘技术的发展,将会出现一门称之为数位人文学的新学科。”(见项洁编:《数位人文研究与技艺》,台湾大学出版中心,2014)

数字人文所带来的最重要也最有影响力的一点是,从“基础数据”的层面,实现真正的跨学科协同合作,并从方法和路径的层面打通自然科学、应用工程、社会科学、人文科学与艺术的综合研究,也使得研究者从自身的学科立场出发,得以扩展到其他领域,并能以“问题导向”出发,与其他学者协同研究,实现研究层面的资源最大共享化、分析方法的最大通约化和知识内容的最大综合性。

然而,数字人文发展也面临诸多挑战,倡导之余也要警惕过分乐观。就目前而言,数据的获取和开放程度是中国数字人文面临的一大挑战。以中国古代典籍为例,已经数字化材料的获得远远不是开放的。各类古籍数据库多如牛毛,但数据共享的做法仍然非常罕见——许多数据库都以商业模式运营,必须得到学术机构和研究者的订购,才能生存。因此,它们的数据开放程度肯定是有限的,这对不同电子资源之间的协作造成一定障碍。

与此相比较,基于互联网的社群讨论和传播,却显得更为融洽、富有活力。许多关于数字人文的学术交流和讨论已经通过非传统的渠道进行,并受到众多学者的关注。例如,不少相关的学术动态是在微信号和群组上发布与传播的。与此同时,推动数字人文的发展,还需要更多注重研究的实践,例如培养研究者制作可视化的技能,或传授如何对数据进行分析、操作、解读等技能。随着各种数位学术资源变得盛行,数据库的使用越来越重要,对研究者的培养也理应加入关于这些工具的内容,让学生们对它们的特点和优劣有系统的了解。面对充斥着学术报告和论文的可视化图像,我们需要带着什么意识去解读与提问?学者在自己制作的时候需要注意什么?诚然,不是每一位人文学者都要系统地学习数据科学的技术和方法,但不管是否用于自己的研究之中,都值得所有文科学者接触数字人文的研究方法,对其进行系统的反思。人文社科学生的培养如何应对数位人文带来的新典范,也成为学界不得不面对的问题。


作者简介: 徐力恒,哈佛大学博士后研究员;陈静,南京大学艺术研究院副教授。