欢迎大家来到每月专题的第一部分,我将探讨开源软件以及开源方式是如何在数字人文中被使用。每个月我都会看一看在目前被广泛使用的开源工具中,有哪些可以应用到数字人文研究和一些人文学科研究项目里。我还将介绍在人文研究中如何进行透明开放的交流,以及与开源方式相关的原则。

首先,我们从数字人文学科的解释开始。数字人文指的是满足数字化时代的传统人文学科,或者是艺术、语言、历史等的相关学术研究。通过使用创新技术,数字人文学者可以创建一些研究项目。而在电脑出现之前,这些主题的研究非常艰苦甚至不可能。

文本/数据挖掘、可视化、信息检索、数字出版都是数字人文研究的关键功能。有了电脑,很多事情都成为了可能。比如发掘英国历史上的著名人物之间的联系,找出一个作者完成工作的模式。就像多伦多大学 Ian Lancashire 和 Graeme Hirst 对 Agatha Christie 作品所进行的分析,从她后期作品中的词汇变化看出她患有老年痴呆症。

今年2月份,一些有趣的项目有了新的进展——软件新版本的发布,新教程,新课程的研究以及博物馆的杂志可以开放地访问。接下来,我将对它们进行一一介绍,或许某个可以加强你对数字人文的理解并激发研究兴趣。

R客户端的互联网档案馆API

互联网档案馆是一个巨大的免费材料集合库,并且为人文学者提供了多种研究方向。为了方便人们使用互联网档案馆,乔治·梅森大学的助理教授 Lincoln Mullen  开发了使用互联网档案馆 API 的 R 包,可以进行搜索项目、下载元数据、并检索相关文件。 Mullen 的互联网档案馆R包可以在 GitHub 下载。

学会使用 OpenRefine

原名为 Google RefineOpenRefine  是一个强大的探索和清理大型数据集的工具。比方说你有一个包含了性别,年龄,和最喜爱书籍的数据集,你想要分析数据的趋势。在你这样做之前,你需要确保数据的一致性。例如,你想要避免《傲慢&偏见》和《傲慢与偏见》作为两个独立的条目出现在图表中,OpenRefine 帮助你做此类修正。

关于学习如何使用 OpenRefine 有很多资源,dh-lib Review 编辑了两个最近的教程。第一个是密歇根州立大学数字图书管理员 Thomas Padilla 的“数字人文研究数据准备”的讲习资料。另一个是由德州农工大学的 Elizabeth Grumbach 和德克萨斯大学的 Jennifer Hecker 记录的网络培训。这两个资源都将帮助你了解如何使用 OpenRefine,使你更容易清理你的数据集。

来自美国数字公共图书馆的 Krikri    Heiðrún

数字化时代,元数据是信息的重要组成部分。收集、编辑和汇总元数据可以是一个复杂的过程,但也有工具可以提供帮助。Krikri 就是其中之一,它由美国数字公共图书馆(DPLA)开发,是一个提供元数据聚合、功能加强、质量控制的 Ruby on Rails 引擎。刚刚发布了 0.1.3 版本,尽管版本号较低,但它已经有一个很好的功能集。Krikri  是 Heiðrun 的一个组件,HeiðrunDPLA 的元数据摄取系统。KrikriHeiðrun  均在 MIT 许可下发布。

贝纳基博物馆现在开放期刊获取

希腊贝纳基博物馆日前宣布,其期刊贝纳基博物馆杂志可以开放获取。此次杂志开放获取源于2014年开始的贝纳基博物馆和希腊国家文献中心(EKT)的合作。目前,该合作项目已经开发了一个可行的在线、开放的杂志和期刊(希腊的文章)网站。尽管网站上开放的内容还不多,但是线上已有两大卷的资源(2008年和2009年)。除了开放获取,线上杂志还利用开放期刊系统(为开放获取期刊设计的开放源码包)。所以,如果这个项目使你产生了兴趣,你就可以看看贝纳基博物馆杂志的网站,阅读他们的文章。当然了,如果你需要一个可以发布开放获取期刊的线上平台,别忘了开放期刊系统。

罗伊·罗森茨维格历史和新媒体中心的新课程

罗伊•罗森茨维格历史和新媒体中心正在开发一种新课程,名为教学隐藏的历史,第一次课程将在2015年的夏天发布。本课程是线上和现场教学的混合课程。根据历史与新媒体中心的声明——该课程集成了数字化的历史,历史教育,教学和学习历史的最佳实践。考虑到中心在大量数字人文工具发展中的重要作用,包括 Zotero Omeka 和 PressForward,这门课程应该为学生提供一个绝佳的机会来提升他们的技能并学习用开源方式做历史研究。

这是开放数字人文的每月专栏。如果你想分享关于该话题的内容,请发送邮件至  Joshua Allen Holm。如果你想投稿,请将文章提交到Opensource.com 编辑组

原文链接:这里