东亚最大文字图像资料库上线 150万字形可免费下载

中研院历史语言研究所与数位文化中心日本大学机构合作,共同建置东亚规模最大的「历史文字资料库统合检索系统」,今(13)日正式启用。(中研院提供/李侑台北传真)

中研院历史语言研究所与数位文化中心2019年起开发「简牍字典史语所藏居延汉简资料库」,今年更进一步,与日本五大学研机构合作建置东亚规模最大的「历史文字资料库统合检索系统」,并于今(13)日正式启用,整合的5个资料库约有150万件高解析度文字图像,可免费下载。

「历史文字资料库统合检索系统」由中研院史语所、数位文化中心与奈良文化财研究所、东京大学史料编纂所、国文学研究资料馆、国立国语研究所、京都大学人文科学研究所等日本学研机构合作建置。整合了源自中国与日本的简牍与纸本文书典籍抄本刻本纪元前至19世纪的文字图像数位资源

跨资料库搜寻,有赖使用相同语法规范。数位文化中心执行秘书陈淑君表示,本次与日本学研机构共同确立文字图像数位资源共享流通体制,并议定一致的国际图像互通架构(International Image Interoperability Framework,英文简称 IIIF)规范,以供多方共同遵循,如此一来,便可从彼此资料库中,检索指定单字图像。

近年开放资料概念标准化影响数位典藏发展。1990年代开始,中研院史语所便着手进行简牍影像释文数位化工作,2002年起,则参与数位典藏国家科技计划

中研院表示,为探究以简牍为主题开放性资料库架构,2019年起中研院史语所与数位文化中心导入IIIF规范,结合链结开放资料(Linked Open Data, LOD)等技术,开发「简牍字典—史语所藏居延汉简资料库」,不仅发展出强大的图像缩放浏览、提取单字字形、图像比较、标注功能,改善简牍研究的工具,更建构中研院史语所藏汉简图像、后设资料的开放共享环境,更成为此次跨国合作「历史文字资料库统合检索系统」的重要基础

担任本次计划主持人的中研院史语所助研究员刘欣宁指出,这项检索系统是文字图像典藏机构间首次创新合作模式,本次系统公开上线只是起点,未来将持续号召其他典藏机构加入,并尝试深化技术。期许在文字图像资源共享的理念下,突破时空的限制,重现东亚汉字文化圈源流与历史脉络