发布时间:2025-02-06 08:46:00被阅览数:197 次信息来源:《山西档案》
作者:刘坤新 侯甜
摘要:历史档案是国家、社会和个人在历史发展进程中形成的原始记录,蕴藏着丰富的信息资源和知识内涵,但传统的内容组织方法和利用模式难以充分发掘和利用历史档案的价值。将数字人文的理念、方法和技术引入历史档案领域,对其进行内容挖掘和知识再生产,可以为历史档案的数字化转型、价值提升提供新的思路。重点阐述了数字人文视域下历史档案内容挖掘的技术路径,探讨了以知识重组与整合、挖掘与创新、共享与服务为主要进路的历史档案知识再生产实现机制。未来要进一步提高档案知识获取的普惠性、服务的精准性,推动形成多元主体、多场景、跨界融合的档案知识服务新格局。这需要档案学、历史学、计算机科学等多元学科知识的交叉融合,持续突破核心技术难题,在人机协同中实现体系化的档案知识创新。
关键词:数字人文;历史档案;内容挖掘;知识再生产
人类社会经历数字化浪潮之后正在迈向更为智能的时代。伴随着以数字技术、网络技术和智能技术为代表的新一代信息技术的兴起,档案领域面临着全新的机遇和挑战。数字人文作为一种新兴的研究范式和实践方法,为档案学与其他学科的融合提供了广阔的空间,为档案资源尤其是历史档案资源的开发与利用注入了新的动力。历史档案是国家、社会和个人在历史发展进程中形成的原始记录,蕴含着丰富的信息资源和知识内涵,是开展历史研究和知识创新的重要依托。然而,传统的内容组织方法和利用模式难以充分发掘和利用这一知识宝藏,阻碍了历史档案社会价值的实现。将数字人文的理念、方法和技术引入历史档案领域,对历史档案进行内容挖掘和知识再生产,可以为历史档案的数字化转型、价值提升提供新的思路。
近年来,国内外学者围绕数字人文项目[1]、档案数字人文应用[2]、数字档案资源深度开发[3]等主题开展了卓有成效的研究和实践。研究表明,历史档案的数据化、语义化、图谱化是实现知识化管理与服务的必由之路。借助深度学习、自然语言处理、知识图谱等技术手段,对历史档案进行多维度的内容挖掘与知识组织,可以揭示档案文本中蕴含的实体、关系、事件以及隐性知识,构建起关联的、动态生长的知识网络。在此基础上,通过知识重组、关联、推理等方法实现新知识的发现与生成,并采取可视化、个性化、协同化的方式提供知识服务。当前对于数字人文环境下历史档案资源的研究已经从资源数字化的技术层面逐步延伸到资源内容挖掘、知识组织与再生产的语义层面。总体来看,对于如何在数字人文的框架下有效整合技术手段、创新方法路径、拓展应用模式,构建起历史档案知识发现、关联、创新、服务的生态体系,仍有待进一步的探索。
1 数字人文视域下历史档案内容挖掘的技术进路
1.1 历史档案数据化处理
档案数据化处理是内容挖掘的基础,涉及文本识别与结构化、元数据标准制定与提取、本体构建与实例化等关键环节。首先,基于历史档案原件的复杂性和多样性特征,需采用OCR识别、手写体识别等技术对档案文本进行自动识别和数字化转换,并进行版面分析与结构化,提取篇章、段落、句子等不同粒度的文本单元。还要充分考虑和解决历史档案中异体字、繁体字等对识别准确率的影响。
在数字化基础上,需要运用元数据标准规范档案资源的描述,建立科学完备的元数据框架体系。档案元数据需涵盖档案的形式特征、内容特征、管理特征等,注重对档案资源内容语义、背景语境的表达。可借鉴都柏林核心、EAD等通用或专门的元数据标准,并针对历史档案的特点进行必要的扩展。元数据抽取可结合规则、统计、混合方法,从非结构化档案文本中自动提取结构化的概念、关系、事件等语义元素。
在元数据抽取的基础上,可进一步构建领域本体,形成对历史档案知识的系统化、规范化表示,为语义关联与推理奠定基础。本体构建一般包括术语抽取、概念定义、关系定义、公理定义、本体评估等步骤。针对历史档案涉及的专门领域,构建科学合理的类、属性、实例等,明晰复杂多样的语义关系,形成历史档案知识组织的概念模型。运用Protégé等本体构建工具,可实现本体的可视化表示、逻辑验证与查询推理。
1.2 历史档案多维度内容挖掘
在数据化基础上,历史档案的内容挖掘可围绕实体、关系、事件等核心要素,从多个维度展开,发掘历史档案文本中蕴藏的丰富知识。基于命名实体识别技术,可从档案文本中抽取人名、地名、机构名、时间等核心实体,揭示不同实体在特定历史语境下的作用。在实体抽取基础上,可进一步采用基于规则、统计、深度学习的关系抽取方法,发现实体间的隐含语义关联,构建档案知识网络。例如,可识别出档案中人物之间的亲属关系、社会关系,时间和事件的先后顺序关系等。此外,历史档案所记载的重大事件往往是影响历史进程的关键节点,对其进行抽取和表示,对于历史再现和解释具有重要意义。事件抽取需建立在实体、关系识别的基础之上,从时间、地点、人物、起因、经过、结果等多个维度对事件的语义特征进行建模,并运用基于模式匹配、机器学习的方法从文本中识别出特定事件及其属性。在对历史档案进行事件抽取后,可进一步开展事件演化分析、因果关系推理,揭示事件间的时空联系与逻辑规律。
多维度内容挖掘还需重视历史档案所反映的时空特征。通过时间分析与空间分析,可将档案记录中的碎片化、非结构化时空信息标准化、结构化和可视化,形成事件或现象随时间演化的时序特征,展现历史事件在空间上的分布格局与传播轨迹。总之,历史档案蕴藏了丰富的时间、空间、事件、因果等多维度信息,采用数字人文的方法可以实现对其深层知识内涵的全方位挖掘。
1.3 历史档案知识组织与可视化
档案内容挖掘获取的实体、关系、事件等知识要素,需进一步构建知识图谱予以语义关联、推理,并运用可视化手段直观呈现。知识图谱作为结构化的语义网络,可以将档案知识组织为具有丰富语义关联的图数据,便于用图数据库进行存储、检索与分析。构建历史档案知识图谱首先要进行本体映射,根据已构建的领域本体,识别档案文本中的概念、关系、属性等要素,实现非结构化信息向结构化知识单元的转换。在此基础上采用RDF等各类知识单元的语义关系,形成具有类、属性、实例的异构信息网络。
构建知识图谱还需进行知识融合,抽取多源异构的档案文本中的碎片化知识进行冲突消解、实体对齐,构建一致性的知识库。通过图数据库Neo4j等工具存储、管理和应用知识图谱数据,支持图谱数据的查询、推理、分析与挖掘。在知识图谱基础上,可充分发掘多维度关联特征,如人物的社会网络、地点的共现关系、事件的因果链条等,揭示历史现象演化的内在机理。
最后,历史档案知识图谱及其分析成果需采用可视化技术直观呈现。针对实体、关系、事件、时空等不同维度,灵活运用合适的可视化方式,如树状图、桑基图、关系图、时间轴、空间热力图等,多角度、多层次地展现档案知识要素及其关联。构建交互式、沉浸式的知识可视化环境,让用户可动态探索知识全景,增强历史档案知识获取与利用的趣味性和实效性。
2 数字人文视域下历史档案知识再生产的实现理路
2.1 知识重组与整合
档案内容挖掘获取的知识具有碎片化的特点,如何将分散割裂、粒度不一的知识片段进行系统重组,形成逻辑连贯、结构完整的知识单元和知识体系,是知识再生产面临的重要问题。需要探索高效合理的知识重组与整合机制,赋予档案知识新的生命。首先,针对知识碎片的异构性、冗余性、矛盾性等问题,需建立规范统一的知识表示框架,对知识进行抽象和概念化,在形式语义层面实现归一化、标准化。在消除语义冲突、数据冗余的基础上,可采用模式匹配、相似度计算等方法,发现具有内在关联的碎片知识,构建主题相关、内容相似、结构匹配的知识映射与链接。其次,针对不同载体和形态的历史档案资源,需突破单一档案的知识视野局限,将其拓展至跨载体的资源语境中,实现多源档案信息的交叉融合与集成创新。通过本体匹配、领域词典比对等技术手段,可在语义层面实现纸质档案、电子档案、展览档案等的互联互通,揭示其内在的逻辑语义关系,形成系统全面的知识图景。再次,知识重组与整合要以构建高内聚、低耦合的知识单元网络为目标导向。以知识图谱技术为支撑,通过定义知识锚点、知识关联、推理规则等,形成以概念、实体、关系为节点,以属性、约束、事件为边的知识网状结构。这种灵活开放的组织形式,可根据用户需求和应用场景,动态调整知识单元组合方式,实现从碎片化到结构化、从离散化到关联化的知识形态再造。
2.2 知识挖掘与创新
想要进一步提升历史档案知识的价值密度和应用效能,需在知识挖掘的广度、深度和创新性方面持续发力。一方面,通过发现隐性知识,不断拓宽知识边界;另一方面,以知识关联、推理为纽带,发现新规律,促进知识创新。
作为人类智慧的结晶,历史档案记录了特定时期社会生活的方方面面。除了显性呈现的文本信息,还蕴含着大量隐性知识。挖掘隐性知识,有助于全面认知历史,还原历史原貌。数字人文方法与技术的引入,为隐性知识的显性化、结构化表达提供了有力抓手。例如,可通过机器学习算法、因果推理等,探测历史档案反映的社会网络关系,揭示历史人物在不同关系链条中的隐性角色与作用。此外,历史档案知识创新的实质是在已有知识基础上,通过知识关联与推理,发现新的知识点及其内在机理。关联分析可以发掘历史现象、人物事件之间的相关性、因果性,揭示事物的多维联系。知识推理则是在一定的推理规则下,由已知的、确定的知识推导出未知的、不确定的知识。例如,运用概率图、本体推理等技术,可探索历史档案中政治、经济、军事等因素的权重与因果效应,发现历史发展的内在逻辑。
知识创新是一个动态生长的系统工程。数字人文研究范式为历史档案注入了新的活力与创造力,但同时也对历史档案的知识创新能力提出更高要求。一方面,需要在技术、算法层面,持续突破词义理解、知识表示、语义推理等核心难题;另一方面,要加大跨学科人才培养力度,促进档案学、历史学、计算机科学等多元学科知识的交叉融合,在人机协同中实现体系化的知识创新。
2.3 知识共享与服务
从知识生产到知识应用,需要畅通无阻的传播渠道,需要精准高效的服务供给。历史档案作为彰显历史文化价值、传承民族精神的重要资源,在数字人文化转型后,要进一步提高知识获取的普惠性、服务的精准性,实现从档案大众化到大众档案化的飞跃。首先,基于开放获取理念,实现对历史档案知识自由、平等、普遍的在线获取。通过建立历史档案资源开放共享机制,优化版权管理模式,推动形成跨机构、跨部门的资源联盟共享体系,促进数字化档案知识的充分流通与传播。同时,结合开放数据等理念,为公众提供自助获取、利用档案知识与工具的平台,形成广泛参与、交互协作的社会化应用生态。其次,立足用户的差异化、多样化知识需求,提供个性化、精细化的知识发现与利用服务。充分运用语义分析、用户画像、知识推荐等技术,准确刻画用户特征,构建千人千面的知识服务模型。针对政府决策、学术研究、社会共享等不同需求,推送与其兴趣、背景相匹配的历史档案知识单元和知识路径,实现用户与知识资源的精准匹配。再次,顺应大数据、人工智能时代知识生产方式的变革趋势,推动形成多元主体、多场景、跨界融合的档案知识服务新格局。一方面,以用户和社会化机构为参与主体,鼓励形成自下而上的数字人文项目应用体系,推动档案知识由专业、小众走向大众、泛在。另一方面,以问题和任务为牵引,推进产学研用的无缝对接,实现档案知识创新链与产业价值链的双向融合,创造数字人文的应用价值。
参考文献
[1]张洁,杨光,肖珑.数字协同视角下LAM机构开展数字人文项目的协调机制研究[J].山西档案,2024(5):113-116.
[2]向敏.数字人文视角下综合档案馆档案利用服务发展策略研究[J].兰台世界,2022(9):104-106.
[3]王鹏.数字档案馆建设推动档案管理转型升级策略研究[J].兰台世界,2022(10):101-103.
【基金项目】贵州省2022年高等学校教学内容和课程体系改革项目“问题意识培养与问题链设计——以高校《中国近现代史纲要》为例”(项目编号:2022308);2023年铜仁学院课程改革与金课、银课建设项目(项目编号:JK20230101);2021年铜仁学院一流本科教育项目“问题意识培养与问题链设计——以高校《中国近现代史纲要》为例”(项目编号:YLBK-2021004)。
【作者简介】刘坤新(1984—),女,汉族,河北沧州人,铜仁学院副教授、硕士生导师,博士,研究方向:党史党建;侯甜(1998— ),女,汉族,山西长治人,铜仁学院硕士在读,研究方向:党的建设。