发布时间:2024-12-17 08:42:36被阅览数:320 次信息来源:《山西档案》
作者:冯安仪 张富秋 华林
摘要:知识服务作为信息服务的高级形态,是web3.0环境下档案信息服务的未来走向。红色档案具有记忆构建、资治襄政、铸魂育人等多重价值,通过对其进行本体构建,可创新红色档案的解读方式与手段,基于档案工作数智化转型的背景,提出了面向知识服务的红色档案本体构建问题。在考察复用相关本体、词表的基础上,结合红色档案自身特征,构建了具有红色档案领域特征的本体模型,并基于淮海战役档案进行了实证检验、可视化展示与知识服务探索,以期为红色档案知识服务研究提供新的视角和参考。
关键词:知识服务;红色档案;本体构建;可视化;淮海战役档案
1 面向知识服务的红色档案本体构建问题提出
习近平总书记在党的二十大上强调,要弘扬以伟大建党精神为源头的中国共产党人精神谱系,用好红色资源[1]。《“十四五”全国档案事业发展规划》中指出,“深入挖掘红色档案资源......传承红色基因。积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用。”[2]红色档案是红色文化的载体,承载着中国共产党人的精神谱系,是服务国家治理的重要红色资源,在数智时代,融入数字人文理念、技术、方法,对其进行内容深度挖掘,可激活红色档案内生价值,提供智慧化档案知识服务,切实推动红色档案研究走向深化。本体构建技术对于推动红色档案由数字化向数据化再向知识化的转化,并实现基于档案文本的知识关联具有较好优势,可推动红色档案信息服务升级为知识服务。学界对红色档案本体构建已开展相关研究,现有研究多围绕抗战档案[3]、大别山红色档案[4]、北京香山红色档案[5]、陕甘宁边区政府文件[6]、皖西红色文献[7]、新四军苏浙军区多模态红色文献[8]、长征档案[9]等具体案例展开。一方面,上述研究可为本研究提供有益借鉴。另一方面,从红色档案资源整体出发开展本体构建的研究尚显不足,同时现有研究所构建的本体模型对于红色档案资源的完整描述与内容关联的揭示有待深化。
据此,本研究从知识服务的视角出发,以新民主主义革命时期形成的红色档案为研究对象,在参考复用相关本体、词表的基础上,结合红色档案整体资源特征构建了具有通用性、扩展性的红色档案本体模型,并借助Protégé工具实现了档案文本中人物、事件、时间、地点间的多维度关联挖掘,其研究价值在于:其一,从红色档案研究本身来看,构建面向红色档案资源整体的本体模型,可实现研究视野从局部到整体的转变,有助于切实推动红色档案文本挖掘的深化。其二,从红色档案知识服务来看,研究可实现红色档案的知识交叉关联和可视化展示,由传统线性的红色档案阅读浏览,转变为基于交互可视化的档案知识发现,有利于满足用户的多维需求,促进红色档案活化利用,赋能用户导向的知识服务[10]。其三,从红色档案开发利用来看,可推动其知识序化与知识组织,创新开发形式,融入数字人文环境与对接档案开发需求,改变传统开发成果单向叙事的实然状况,达到多维度知识语义表达的效果。
2 面向知识服务的红色档案本体模型设计
红色档案数量繁多、分布广泛、种类丰富,涵盖文字、图片、音视频和实物等多种类型,因而对其资源整合共享存在一定的困难。本文基于本体理论,在考察分析红色档案内外部特征的基础上,构建了红色档案本体模型,并建立语义体系,实现红色档案外部元数据与内部文本知识单元的双重关联聚合,以改善红色档案数据多源异构、知识离散的现状。本文选取Protégé工具构建红色档案本体模型,参考斯坦福大学的“七步法”,将构建过程分为明确本体范畴、复用领域内术语、定义添加核心概念属性、本体实例可视化、知识服务应用5个阶段。
2.1 明确本体的领域和范畴
红色档案是指在新民主主义革命时期(1919—1949年),中国共产党及其领导的组织和个人在政治、经济、军事和文化等活动中直接形成的,对国家及社会具有保存价值的,以文字、图像、音视频等多种方式存在的信息记录,具体可分为红色纸质档案、红色声像档案、红色实物档案与红色口述档案4个大类。
2.2 复用本体及领域内术语
红色档案数据形态多源异构且尚未形成统一的元数据标准,为保证所设计红色档案领域本体的可扩展性,在参考学习CIDOC CRM模型、DC、FOAF本体及其他国际通用本体标准的基础上,结合本研究收集到的红色档案资源特征,对红色档案领域内的核心概念进行了分类梳理,建立了知识模块,将其中具有概括性的概念[11]作为红色档案资源本体的类,并使用前缀“ra”表示无可复用本体,以便为后续步骤提供术语支持。
具体选择主题、主体、时间、地点、事件、类型、事物、资源等概念作为红色档案知识本体的核心类,并在此基础上设置子类,具体如下。
(1)主题(Subject)。红色档案是国民革命、土地革命、抗日战争、解放战争、社会主义革命和建设、改革开放和社会主义现代化建设新时期形成的记录,其资源主题涉及革命战斗战役、地下党活动记录、红色人物传记、党的理论、党的组织管理情况与其他6个子类。
(2)主体(Agent)。红色档案中的主体类包括人物个体和家庭、(党)小组、单位、军队、党派等人物群体。本文参考复用FOAF本体中的主体类(foaf:agent),将主要人物划分为个体(foaf:person)和群体(foaf:group)两类。人物个体的属性有姓氏(foaf:surname)、名字(foaf:first name)、性别(foaf:gender)、民族(ra:ethnic group)、籍贯(ra:native place)、所属党派(ra:party)、所属部队(ra:army)、担任职务(ra:position)等;人物群体主要分为共产党和国民党。例如,毛泽东、邓小平、朱德、贺龙、刘伯承等为红色人物个体;国民革命军第八路军的一一五师、一二〇师、一二九师为红色人物群体。
(3)时间(Temporal Entity)。以“年、月、日、时”对档案资源中的时间信息进行标记,复用CIDOC CRM模型中的时间类(E2 Temporal Entity),并参考time词表将其分为时间点与时间段2个子类。前者指红色档案中所涉及事件或活动的时间节点,后者描述的则是一个持续的时间范围。例如,徐州联合支前会议的时间是1948年12月26日至29日,粟裕提出举行淮海战役建议的时间点是1948年9月24日,第1个例子是时间段,第2个例子为时间点。
(4)地点(Place)。主要标记红色档案资源中所涉及的地理位置信息,复用CIDOC CRM模型中的地点类(E53 Place),从“省、市、县(区)”具体至“乡、镇、村、集”,并统一“同地异名”的情况。例如,民国时期北京称北平、西安称西京、武汉称武昌。1988年出版的《中国人民解放军晋冀鲁豫军区第三纵队、第十一军第三次国内革命战争战史》中记录的“宿县”为今安徽省宿州市,后面会统一用“宿县”表示。
(5)事件(Event)。复用CIDOC CRM模型中的事件类(E5 Event),对具体与红色事件相关的人物、时间、地点、起因、经过、结果进行描述,相关属性有:事件名称(ra:event Name)、发生地(ra:located At)、起因(ra:cause)、结果(ra:result)、起始时间(ra:started At Time)、结束时间(ra:ended At Time)、相关人物(ra:related Person)、相关地点(ra:related Place)等。
(6)类型(Type)。此类是指红色档案资源的呈现形式,具体有文本资料、口述资料、图片资料、声像资料4种,相关属性描述有文本页数、图片长度、图片宽度、音视频时长及音视频大小等。
(7)事物(Thing)。参考复用CIDOC CRM模型中的事物类(E70 Thing),下设自然物(E18 Physical Thing)与人造物(E71 Human-Made Thing)2个子类。花草、树木、石头等属于自然物,枪支、弹药、坦克等属于人造物。
(8)资源(Resource)。描述档案资源的名称、作者、发表时间、归档时间、主题、类型、载体形式、装订方式等,包括命令、指示、会议记录、书信、手稿、电文、日记、战史和回忆录等扩展类。
2.3 定义添加核心概念属性
在明确领域内术语和定义本体类的基础上,为实现各孤立类间的关联化,需对红色档案进行对象属性(Object Properties)和数据属性(Data Properties)的设置与添加。
2.3.1 对象属性
对象属性偏重于描述和表示不同类之间的关系[12],可作为联系类和实体间交叉关系的纽带,并设定义域(domain)和值域(range)的约束。将红色档案中的文本信息描述为“主实体—关系—客实体”的S-P-O三元组形式,其中主实体可理解为主语(定义域),关系为谓语(对象属性),客实体则为宾语(值域)。例如,《淮海战役史料汇编》中的“1948年12月1日22时,华野渤海纵队进占徐州”,可表示为“华野渤海纵队—进占—徐州”,此例中对象属性为“进占”,定义域为群体(华野渤海纵队),值域为地点(徐州)。本文通过分析总结红色档案间的关联关系,定义了19个对象属性,其定义域、值域和描述如表1所示。
表1 红色档案部分对象属性
2.3.2 数据属性
数据属性是对档案资源某一类本身的详细描述,可以数值或字符(串)的形式说明实例的特点和属性。例如,红色档案实例中,革命战斗战役类涉及的数据属性有战役名称、战役涉及人物、战役时间、战役地点、战役结果,群体类涉及名称、成立人、负责人、成立时间、地点和群体人数等属性,事件类囊括事件名称、发生地、起因、结果、起始时间、结束时间、相关人物、地点及其他相关事件等。本文根据红色档案的特点及分类,通过复用借鉴CBDB、FOAF、DC和Time等词表模型中的部分属性,在8个核心类下面复用并自定义了33个扩展类和69个数据属性,具体数据属性描述如表2所示,以期为后续红色档案本体构建构筑基础。
表2 红色档案部分数据属性
2.4 本体实例可视化
淮海战役是关系中国革命前途的重要战役,它的胜利为新中国的建立奠定了坚实基础,其档案记录具有重要价值。本文以淮海战役档案为例,具体分析了其涉及的相关人物,以实例可视化的方式显示人物—事件、人物—人物、事件—事件、时间—事件等关联关系。从内容上看,淮海战役档案主要有以下几种类型:以各类命令、指示为主的“文件选编”;部队对参战情况进行总结性陈述的“战史摘要”;交战双方彼此审视、研究以及对战斗经验、教训、胜败得失等反思而形成的“战术研究”;各野战军、各纵队等的报纸关于实时战况的“战地报道”;国共双方参战部队及个人写的“阵中日记”;后人走访参战将士并对其口述内容进行详细笔录的“访谈实录”和亲历者对战役进行回顾所形成的“征程回忆”。本部分在对淮海战役档案资源进行采集、预处理、知识提取与分析的基础上,进行了本体模型构建和可视化展示,意在揭示档案内部语义关联关系,挖掘档案资源中人物、事件间的交叉隐含关系,为更好地发掘利用淮海战役档案提供知识基础。
2.4.1 资源采集
对淮海战役纪念馆、徐州市档案馆和徐州市图书馆、淮海战役碾庄圩战斗纪念馆、淮海战役陈官庄纪念馆等进行调研,以《淮海战役史料汇编》《淮海战役亲历记(原国民党将领的回忆)》《淮海战役》《淮海战役百问》《毛泽东军事文集》《邓小平军事文集》《粟裕文选》为主要数据来源,分析其中收录的淮海战役期间的各类命令、指示、电文、报道、总结、日记等文献资料,收集的部分材料如表3所示。
表3 淮海战役档案材料收集情况(部分)
2.4.2 实例分析
一是本体设计。本文选用OWL作为语义描述语言,斯坦福“七步法”作为构建方法,Protégé软件作为本体构建工具。提炼“事件”“人物”“地点”“时间”“事物”“主题”等核心概念集,作为淮海战役档案领域本体的顶层概念和规则,为后续的细化描述与实例化奠定基础。本体概念模型如图1所示,主要包含概念层、实例层、内容层三个方面。一是概念层,该层涉及淮海战役档案本体模型的构建,即以系统化方式描述“类”“属性”“关系”,继而搭建实体间交叉关系模型;二是实例层,从档案资源中提炼知识关系,将概念层的实体与具体实例一一对应,并添加属性约束,如添加具体的战斗名称、参战人员、参战部队、参战将领、战斗具体时间、战斗具体地点等;三是内容层,将上一层的实例关联到具体的档案资源。
图1 概念模型示意图
二是本体构建。基于前期采集的相关数据,结合上文设计的红色档案元数据和属性,选用Protégé工具将淮海战役档案本体分为“事件”“人物”“地点”“时间”“物品”“类型”6个核心类,并添加数据属性和对象属性约束。其中,事件类分为支前、战前、战中和战后;人物划分为共产党员、国民党员和普通群众;地点包括省、市、县、镇、村、集和普通建筑;时间包括时间段和时间点;物品有武器装备、生活用品、行政用品和运输车辆,类型包括文件选编、战史摘要、战地报道、阵中日记、访谈实录和战术研究6种。
三是知识抽取与关联。在收集、梳理档案资料的基础上,对其进行实体消歧、共指消解、知识合并等操作,以解决初步收集后的档案数据所存在的语言歧义、数据冗余或同物异指的问题。结合Bi-LSTM和CRF技术抽取实体关联关系,从繁复的淮海战役档案中抽取关联的有价值的知识元,将转化后的RDF元数据进行关联,形成相互联系的有机集合,并通过实例可视化的形式向用户展示知识间关联关系,以揭示淮海战役档案资源间的隐含关联。
四是实例添加。根据类别特征依序添加对应实例,例如,在“人物—共产党”一类中添加陈毅、饶漱石、张云逸、舒同、袁仲贤、周骏鸣、唐亮等;在“物品—武器装备”中添加步枪、轻机枪、重机枪、手提机枪、短枪、信号枪、山炮、火箭筒、化学炮、迫击炮、六〇炮、掷弹筒等;涉及的“事件—战中”有张公店战斗、陈楼遭遇战、攻占曹八集、急袭窑湾、攻克宿县、徐东阻击战、彭庄战斗、唐家楼战斗、碾庄圩战斗等,具体如图2所示。
图2 淮海战役档案实例添加图
2.4.3 关联展示
在本体构建的基础上,将加工整理后的结构化数据知识进行内容语义关联,如图1“内容层”所示,主要关联的档案资源有文本档案(指示、电报、信件、报纸等)、图片档案(进攻路线图)、实物档案(蓑衣、葫芦瓢、大喇叭)、音像档案(音频视频记录)等,结合语义标注方法和本体映射规则等构建知识关联,如图1“实例层”内与“碾庄歼灭战”相关的,时间为1948年11月5日至1948年11月22日,共产党方参战部队(群体)有华野四纵、六纵、八纵、九纵和十三纵,参战个体有战斗组长杨锡成、机枪班长顾松茂、五十一团八连爆破员张树才、突击连冯海廷,国民党方群体有“黄百韬兵团四十四军”,个体有一〇〇军副军长杨诗云、四十四军长王泽浚、一五〇师师长赵壁光,涉及地点有彭庄、曹八集、大张庄、大兴庄等。
2.5 知识服务应用
2.5.1 知识查询检索
查询检索是红色档案知识服务较为重要的应用之一,主要具备以下功能:一方面是知识检索。仍以上文所提的“碾庄歼灭战”为例,利用Protégé工具调用编辑语句,通过OntoGraf窗口可进行关联知识检索,如检索“张树才”,可关联至“所属部队:华野六纵五十一团八连”“职位:爆破员”“相关事件:碾庄歼灭战”“相关物品:手榴弹、炸药、枪支”“籍贯:四川省万县”“入党年份:1948年”,且每个实例都有彩色箭头相连,不同颜色的线条表示不同的关系,例如,“张树才—连长”之间为上下级关系,“张树才—华野六纵五十一团八连”为属于关系。另一方面是扩展查询。将“碾庄歼灭战”相关实例全部展开可发现华野四纵、六纵、八纵、九纵和十三纵与国民党四十四军之间的战斗关系,以此也可推理得出相应的战友关系、从属关系或亲缘关系,由此拓展进行淮海战役档案本体模型的知识推理与扩展查询。
2.5.2 知识推理
红色档案本体可将原本隐藏在红色档案文本中有价值且处于隐性状态的知识挖掘出来,实现档案文本中隐性知识的显性化,由此具备知识推理功能。本文利用Protégé中的Hermi T推理机功能,参照SWRL(Semantic Web Rule Language)规则语言,在SWRL Tab页面新建规则(见图3),如人物(?×1)∧年龄(?×1,?×2)∧swrlb:lessThan(?×2,60)∧swrlb:gresterThan (?×2,40)->年龄段(?×1,“中年”),该语句表示年龄大于40且小于60的人物,其年龄段记为中年。
经过SRWL语言解析后,将新建规则保存至原先的本体模型中,从而可推断出黄百韬是符合年龄区间在40~60的中年人,具体推理结果如图4所示。此外,在知识推理功能的基础上,红色档案本体还可应用于多维知识发现研究。
图3 基于SWRL的规则新建
图4 基于SWRL对人物黄百韬的推理
2.5.3 知识一站式服务
基于数智时代的各种新型信息技术,可实现红色档案知识一站式服务,例如,根据用户的数据需求,提高知识服务精度,设计功能化知识服务内容;提供知识关联、交互功能,实现知识的高效获取与延申拓展;匹配用户关联检索推荐,依据读者的检索关键词构建用户画像,探索用户需求,进而匹配并推送其感兴趣的内容,为用户提供个性化、特色化的知识推荐;实现红色档案知识的可视化和图谱化,设置“选择”“放大”“缩小”“截图”等功能,显示各实体、事件及关系详情,为用户提供知识级信息服务;关注用户需求转变,聚焦知识增值服务与主动服务,构建并链接红色知识服务环,为用户提供一站式红色档案知识服务;基于红色档案本体,建立红色知识共享平台,融入知识交互展示页面,简化顺序式文本读取程序,为用户提供知识聚合与共享服务。
综上所述,本研究引入本体概念,通过对红色档案文本进行语法结构处理与语义标注,建立起知识单元间的多维度关联关系。结合规则语言,借助一致性检验评估本体知识的合理性,实现隐含关系的显性挖掘及缺失关系的完整补充。以用户个性知识查询、Hermi T推理机知识推理、语义关联检索等功能,综合为用户提供红色档案个性化知识发现服务,进一步实现红色档案知识的细粒度解构。
3 结语
在数智时代,“知识孤岛”“知识迷航”等现象日益普遍,单一传统的档案信息服务越发难以满足用户精细化、知识化、多元化的智能需求,知识服务代替信息服务已成为数智时代趋势。红色档案是极其珍贵的革命文化遗产,也是红色基因传承的重要载体,但其仍存在知识关联性不强、知识组织不深等问题,亟待向知识本体模型和知识服务转型。本文提出面向知识服务,以淮海战役档案为例,对红色档案进行本体构建与可视化研究及应用探索,通过对红色档案进行知识提取和分析,深入挖掘档案资源间的语义关联,从具体人物事件到整体资源分析,借助本体模型和可视化技术实现红色档案的细粒度知识组织、深层次知识关联,最终为用户提供多元化、特色化的知识服务。
参考文献
[1]习近平:高举中国特色社会主义伟大旗帜 为全面建设社会主义现代化国家而团结奋斗:在中国共产党第二十次全国代表大会上的报告[EB/0L].(2022-10-25)[2022-11-05].http://jhsjk.people.cn/article/32551583.
[2]国家档案局.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].(2021-06-09)[2023-9-12].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.
[3]陈海玉,向前,何剑锋.面向知识服务的抗战档案资源聚合与可视化展现探究[J].档案学研究,2021(2):111-118.
[4]朱兰兰,段燕鸽.叙事理论在红色档案资源开发中的应用:以大别山区为例[J].档案学研究,2023(2):95-102.
[5]陈忻,房小可,孙鸣蕾.社会记忆再生产:北京香山红色档案编研成果的细粒度挖掘研究[J].山西档案,2021(1):80-87,79.
[6]俞露.数字人文视域下陕甘宁边区政府文件知识组织与可视化研究[D].长春:吉林大学,2022.
[7]徐孝娟,孙爱华,史如菊,等.数字人文视角下皖西红色文献知识本体及其应用[J].图书馆论坛,2023(10):139-151.
[8]付靖宜,李姗姗,项欣溢,等.新四军苏浙军区多模态红色文献资源知识聚合模式研究[J].档案学研究,2022(4):24-31.
[9]季妍辰.长征档案资源知识图谱构建研究[D].长春:吉林大学,2023.
[10]武晓璇,朱天梅,周丽霞.面向奥运遗产开发的档案知识服务研究[J].山西档案,2022(6):50-57.
[11]胡慧慧,赵雪芹.基于本体的桥梁文化遗产档案知识图谱构建研究[J].山西档案,2023(6):42-57.
[12]华林,冯安仪,谭雨琦.关联数据环境下我国海洋历史文献资源知识组织研究[J].数字图书馆论坛,2023(8):15-25.
【基金项目】2023年度云南省教育厅科学研究基金项目“以一隅而荷全国之重任:云南抗战档案整理研究”(项目编号:2023J0579);云南省创新团队项目“云南民族档案文献整理发掘研究”(项目编号:2021CX01-09)。
【作者简介】冯安仪(1998—),女,汉族,江苏徐州人,云南大学历史与档案学院博士在读,研究方向:红色档案、知识组织、边疆档案;张富秋(2003—),男,汉族,黑龙江哈尔滨人,云南大学历史与档案学院本科在读,研究方向:档案学、知识组织、边疆档案;华林(1963—),男,汉族,云南景东人,云南大学历史与档案学院教授、博士生导师、全国档案专家领军人才,博士,研究方向:民族档案、边疆档案。