【联结·讲座】朱本军:面向活化利用的文化遗产智慧基础设施:前沿问题与可能趋势

稿件来源:中山大学人文高等研究院 发布人:杨红彬 发布日期:2023-12-18

2023年11月4日下午,中山大学人文高等研究院、文献与文化遗产管理部联合推出的“数字与人文”跨学科系列讲座第三讲在中山大学南校园图书馆学人文库顺利举办。北京大学图书馆研究馆员朱本军主讲“面向活化利用的文化遗产智慧基础设施:前沿问题与可能趋势”,广东省古籍保护中心秘书长林锐主持讲座。

 

一、人工智能发展下的文化遗产整理

 

朱本军老师首先谈到了通用人工智能,指出通用人工智能(Artificial General Intelligence, AGI)是指一种可以像人类一样处理各种各样任务的人工智能系统,具备“拟人化思维”,具有更强的自我学习、自我改进、自我调整能力,能够独立解决问题。AGI的技术前景将会给人文研究插上“智慧”的翅膀,但如何让文献、数据等变“智慧”仍是一个有待探索的问题。

 

朱本军老师在讲座中

 

基于这种认识,朱老师认为“通用大模型+专用模型”或是文化遗产活化利用的下一个趋势。而在这一趋势中,模型的智慧高度主要取决于文遗数据的权威性、可靠性及技术框架与模型的适用性。针对文化遗产活化利用应开展的前置性工作,也即“文化遗产的辨章学术、考镜源流”,他给出了三点建议:(1)主导权威、高质量文化遗产数字内容聚合;(2)主导文化遗产权威内容生成;(3)主导文化遗产专业知识高质量生产,并特别强调了前置性工作中确保平台先行、标准统一、内容权威的重要性,这也与后面所说的建设具有广泛应用意义的文化遗产智慧基础设施的构想紧密勾连。

 

二、前沿问题与可能方向:基于观察、实验的反思

 

 

接着,朱老师分析了当下海内外若干数字人文项目中存在的不足,认为所列举的这些项目大多只可以鸟瞰,而不能看细节。新数字人文项目处理好七大问题至关重要,即权威规范与适当留白的问题、“可溯源”与“成本”问题、作为“整体”的知识与“碎片化”的关联知识的问题、“数据流”与“分工合作”的问题、公益性与商业化的平衡问题、本土化与国际化的问题及面向学术研究的知识平台归宿问题。鉴于在其主导的诸多试验性项目(“中国历史地名数据库”“印鉴数据库”“斋堂馆舍数据库”“人物数据库”等)中曾经遭遇过类似的问题,朱老师对上述各类问题的解决简要阐发了自己的观点和改进建议。

 

 

此外,在其不断反思与迭代的实验中,朱老师还发现了一个至关重要的细节,即时间的转换与统一规范著录问题贯穿于文遗整理与知识标引的始终。中国历史源远流长,不同时期不同政权记录时间的方式、要素不尽相同,倘若无法做到不同时间的规范著录与相互转换,相关知识点之间便难以建立起联系的中介。因此,统一时间标尺的构建便显得格外重要。朱老师花费三年时间着力攻克“汉语时间”的转换与规范表达,搭建了“汉语统一时间标尺平台”(www.histchina.cn)

 

汉语统一时间标尺平台

 

三、实现路径:文化遗产智慧基础设施的构建

 

 

1.智慧基础设施整体构想    

 

基于上述思考和实践,朱老师提出了文化遗产智慧基础设施建设的整体构想,即立足时间基础设施,将文化遗产实体数字化并分门别类,建立“目录+数字对象”基础设施;再通过OCR、自动标点及人工校对等手段,实现文化遗产数字对象的定本生成,构筑全文定本基础设施;最后对定本进行精细加工,明确其中的知识出处,形成地名、职官、器物等专业化知识库,进而完成知识基础设施的构建。

 

2.智慧基础设施略览

 

朱老师深入介绍了各基础设施建设过程中可能遇到的困难及相应的解决方案。

 

首先是汉语的时间问题。汉语时间问题的解决牵涉到时间表达中的要素(重点是中粒度时间要素,如对岁、年、月、日等概念的考察)、古汉语时间表达的规则、中国历谱的计算与编排(历法)、西历历谱的计算与编排及面向文献整理的特殊考量(精确记载与模糊记载对某个具体时间确认的不同要求)等细节问题。

 

目前已攻克的“汉语统一时间标尺平台”不仅实现了对时间进行著录/标引+转换、基于时序的编码与关联计算及古-古、中-西时间的精确/模糊查询与转换等功能,而且在辅助时间辨识、人物生卒年探究等文史研究领域都起到了重要的作用。

 

运用“汉语统一时间标尺平台”解决实际问题

 

其次是文化遗产整理的问题。在这一点上,他首先指出了当今文化遗产整理面临的两大前沿问题,分别是重构目录分面知识体系及全文定本文本设计。前者可通过引入分类—主题词法的智能筛选机制加以解决;后者则要求综合考虑并解决文献结构(页码标签)、内容结构(索引)、文本结构(阅读与文本计算)、符号标点(带结构化标签)这几个事关智慧化的关键问题,以便促进数字内容的规范化表征,帮助研究者在实际使用中实现检索范围的递归性缩小。

 

接着是校勘定本的问题。以《山海经》为例,如果有不同版本则应有校勘并定本的环节(无则不必有此环节而直接定本)。通过先选取一个较受学界认可的古本,而后校勘,最终形成权威性的定本。

 

最后是知识标引的问题。要深入把握好知识项的可溯源、知识的深度与传递性问题及知识的留白这三个关键性问题。在解释清楚知识标引的概念后(知识标引=【知识本体】+【集群化知识引用】+【来源/出处】),朱本军老师提出,可通过建立不同实体的规范标引规则来降低从事知识标引人员的门槛,降低知识生产的人力成本。

 

3.设施的最终效果

 

对于基础设施的最终呈现,朱老师认为建构智能模型框架上的文化遗产智慧基础设施,较于传统设施,具有更强的独立性和数据的可互操作性,换言之,这一设施应实现人与系统、系统与系统之间的松散耦合,如此便可形成“聚是一团火,散是满天星”的整体与局部效果,大大提高基础设施的灵活性与稳定性。

 

四、小结:文史研究的前景与启示

 

讲座结尾,朱老师就同学们提出的“数字人文基础设施平台能否降低专业性学科的研究门槛”“基础设施平台的建成会把人文研究带向何种趋势”等问题,给予了细致的答复。他表示,如果未来他正在主导的这一平台能够实现,且能被大规模地推广应用,那么专业性学科的知识壁垒在一定程度上就会被打破,其研究门槛之于非专业学者也会有所降低。此外,这一平台建成后,能够大幅减轻人文学者的研究负担,让他们从繁琐重复的整理汇编工作中解脱出来,将时间和精力更多地花在对专业问题的研究上。