本书研究中华传统文化知识表达的基本特质,构建适用于中华传统文化知识表达的语义框架,并综合利用机器学习与自然语言处理等技术,探讨从典籍文本中自动抽取实体名称与属性关系的方法,研究并制定中华传统文化知识表达体系自动构建方法及实现流程。在此基础上,作为自动构建方法的例证,本书还将从典籍中自动抽取中华传统文化重要组成部分——先秦文化所涉及的所有实体名与属性关系,完成先秦文化知识表达体系的自动构建,以验证中华传统文化知识表达体系自动构建方法及实现流程的有效性。研究内容主要包括:(1)中华传统文化知识表达体系构建的基本原则与思路研究;(2)基于典籍的中华传统文化知识表达语义框架构建方法研究;(3)面向典籍文本的中华传统文化知识表达命名实体自动抽取研究;(4)面向典籍文本的中华传统文化知识表达语义关系自动识别研究;(5)中华传统文化知识表达体系自动构建工具的设计与开发;(6)中华传统文化知识表达体系自动构建的实证与应用研究。本书提出了中华传统文化知识表达体系转化利用方法,从实践的角度形成中华传统文化知识表达体系活化利用的完整路径,通过实证,从大众视野、学者视角和产业视域等角度初步实践了数智赋能人文议题研究和文化应用产品开发等场景应用,有益于推动中华优秀传统文化的创造性转化和创新性发展。有助于实现中华传统文化在当代数字媒介环境下的再表达、再生产、再传播和再记忆,支持中华传统文化的认知重构、记忆再现、文化传承、决策支持等跨学科交叉研究与应用。
何琳,教授、博士研究生导师。主要从事信息组织与信息检索领域的教学科研工作,兼任中国社会科学情报学会理事、江苏省情报学会理事、中国农学会图书情报分会副秘书长,《图书情报工作》《中国农史》《农业图书情报学报》等期刊编委。入选多项省部级人才计划。以第一完成人获江苏省哲学社会科学优秀成果奖一等奖、三等奖等奖项。李章超,江苏开放大学公共管理学院讲师,江苏基层社会治理研究协同创新基地研究人员,博士毕业于南京农业大学信息管理系图书情报与档案管理专业。主要从事数字人文、信息组织与文本挖掘等相关研究。在SSCI和CSSCI收录期刊上发表学术论文10余篇。刘浏,南京农业大学信息管理学院副教授、硕士生导师。长期从事古籍文本知识挖掘和计算人文研究。主持国家自然科学基金1项,江苏省社会科学基金2项,参与国家社会科学基金重大项目3项,发表A&HCI、CSSCI检索论文30余篇,合作出版专著1部、教材1部。
本书主要完成以下几项研究任务:
(1)中华传统文化知识表达体系构建的基本原则与思路研究
本书对已有的文化遗产知识组织模型进行了充分调研,结合中华传统文化知识表达的特征,结合CIDOC CRM中现有的类别层次及属性层次进行针对性的裁剪和扩充,界定了中华传统文化知识表达体系这一具体情境中的术语、类别、属性及关系的确切含义,探讨了基于典籍内容构建中华传统文化知识表达体系的基本原则与思路。
(2)基于典籍的中华传统文化知识表达语义框架构建方法研究
借鉴领域本体自动构建的方法与技术,利用相关工具书及研究资料,结合专家调查、归纳等人工方式与模式识别及文本聚类等自动化文本分析方式,将中华传统文化涉及的实物物件、符号物件、概念物件等细节类目层次体系及对应的属性关系层次体系进行分面归纳,半自动构建完成中华传统文化知识表达语义框架,共包含78个类别,142种对象属性,并从结构和内容两个维度对构建的知识体系进行评价
(3)面向典籍文本的中华传统文化知识表达命名实体自动抽取研究
依据已建立的中华传统文化知识表达语义框架,利用机器学习、自然语言处理、模式识别等多种智能化处理技术,从典籍文本中自动抽取相应的命名实体,归入中华传统文化知识表达语义框架对应的类别,利用深度学习模型进行典籍自动分词、自动词性标注研究,结合古汉语语法分析的成果,训练生成不同类别的命名实体抽取模型。在此基础上,利用维基百科词典及典籍引得数据,完成典籍命名实体的消歧研究。
(4)面向典籍文本的中华传统文化知识表达语义关系自动识别研究
在实体抽取的基础上,依据中华传统文化知识表达语义框架的属性层次关系,从典籍中对实体间的语义关系进行标注和归纳,建立不同实体间的语义关系触发词词典。结合古汉语语法分析及模式识别等方法,归纳特定属性关系三元组描述模式,深入研究典籍文本聚类、句子相似度计算、典籍特征词抽取等技术。基于深度学习技术,构建了面向典籍的内容抽取的语义关系抽取技术体系。
(5)中华传统文化知识表达体系自动构建工具的设计与开发
在上述关键问题研究成果的基础上,对中华传统文化知识表达体系中涉及的本体模型构建方法及实例自动抽取等方法和技术进行整合研究,形成中华传统文化知识表达体系的规范化自动构建方案。在构建方案的指导下,设计并开发面向典籍内容的内容标注工具,以及基于知识表达体系的知识分析工具,实现了典籍内容的标注与整合,同时对中华传统文化知识单元提供了主题聚类、查询分析、社会网络结构分析等多维度、多角度的可视化呈现。
(6)中华传统文化知识表达体系自动构建的实证与应用研究
选取中华传统文化的高峰之一先秦文化,作为中华传统文化知识表达体系构建的实证研究对象。依据所提出的中华传统文化知识表达体系自动构建的方案与流程,从《左传》等重要先秦典籍中进行知识抽取并构建知识表达体系。对构建结果进行时空、主题、人物、事件等多维度可视化分析,提出了面向大众、学者及产业进行内容转化的实现路径案例研究,验证本书提出的知识表达体系标准化构建方案在应用过程中的正确性、完整性和可操作性。