《模式识别核方法的理论研究与应用》论述了模式识别核方法的理论与应用。核方法具有坚实的理论基础,这使得核方法及其理论不仅在数学理论领域得到了非常重要的研究和发展,而且在模式识别、机器学习、数据挖掘等研究领域也得到了极为广泛的关注与应用。
《模式识别核方法的理论研究与应用》可供从事模式识别核方法理论和应用研究的高校和科研院所的研究人员、研究生、本科生学习和参考,也可为企业的技术人员提供参考和借鉴。
核方法及其理论以双射函数和变换理论为基础,主要研究希尔伯特空间上的一些半正定函数及其相关应用。基于核的机器学习方法不仅适用于以特征向量表示的模式,也适用于结构化数据的模式,前者对应的是向量核方法,后者对应的是图核方法。因此,模式识别的核方法主要可以分为两类:向量核方法和图核方法。早期主要集中于对向量核进行研究,在这一方面不论在理论上,还是在应用上都得到了较大的发展,也吸引了很多领域的学者对基于核方法的机器学习的理论与应用技术进行了应用和推广;图核发展较晚,近几年才慢慢被人们所知并得到了应用和推广,尤其是在数字图像的结构图建模、特征描述和匹配等研究领域,被越来越多的学者关注,图核因其能够描述图的结构特征,所以在结构模式识别领域具有得天独厚的优势。
模式识别核方法具有坚实的理论基础,这使得核方法及其理论不仅在数学理论领域得到了非常重要的研究和发展,而且在模式识别、机器学习、数据挖掘等研究领域也得到了极为广泛的关注与应用。因此,进一步研究核方法的理论与应用具有非常重要的意义。
笔者在承担安徽省自然基金面上项目“多层深度匹配图核学习算法研究及其在舆情监测中的应用”(1908085MF185)、安徽省高校自然科学研究重大项目“基于深度多尺度图核技术的公共安全监测系统的研发及应用”(KJ2019ZD61)、安徽省高校优秀青年人才支持计划重点项目(gxyq2019113)等的基础上编写了本书,希望能够以此为从事模式识别核方法理论和应用研究的高校和科研院所的研究人员、研究生、本科生,企业的技术人员提供相关的理论参考和技术借鉴。
本书内容的主要创新之处如下:
第一,提出了一种再生核希尔伯特空间上的多核学习方法。首先,通过狄拉克函数介绍了一类广义微分方程的基本解,并分析了这个基本解是H2空间上的再生核。其次,基于这个H2空间上的再生核设计了一种新的多核学习方法,由多核代替单核能增强支持向量机决策函数的可解释性,并且可以获得更优的分类性能。最后,用大量的实验验证了这一新方法的有效性。
第二,提出了一种多属性的具有再生性的卷积核方法。首先,通过狄拉克函数介绍了一类广义微分方程的解,并基于这个解设计了一个多属性卷积核函数。其次,验证了这个多属性函数满足默瑟核的条件,且这个多属性核函数具备三个属性:L1范数、L2范数和拉普拉斯核。再次,与传统的希尔伯特空间核方法相比,该卷积核方法在考虑多个属性的情况下,融合了每个属性的特点,有助于提高基于多属性核函数支持向量机的分类精度。最后,在实验数据集上验证了该方法拥有较好的分类能力。
第三,提出了一种基于Weisfeiler-Lehman(WL)图核的三种组合图核方法。首先,给出WL图核的基本理论和相关知识,并进一步介绍了基于WL图核的子树核、边核和最短路径核。其次,基于WL图核定义了三种组合图核,第一种为加权组合图核,它是参数组合图核;第二种为精度比组合图核;第三种为乘积组合图核。后两种图核属于无参数图核。最后,实验结果表明基于WL图核的组合图核在所选实验数据集上与相应的单个图核比较,可以获得较好的分类精度。因此,研究组合图核的理论与应用具有非常重要的实际意义。
第四,提出了一种基于逼近的冯·诺依曼熵的再生性图核方法。首先,给出了无向图的一个信息熵逼近表达式,这个表达式依赖于对图的顶点的度的统计,然后通过这个逼近的冯·诺依曼熵来度量结构图信息。其次,通过一个广义微分方程的基本解来给出Hl空间上的Hl核函数。最后,基于逼近的冯·诺依曼信息熵与Hl核函数定义了一个逼近的冯·诺依曼熵再生性图核。实验结果表明,与其他图核方法相比,这一分类方法的精度在所选的大多数数据集上能够超过其他图核方法,并且计算用时较短。
本书的资料主要来源于笔者的科研成果,在本书的创作过程中,笔者得到了中国科学技术大学陈恩红教授、安徽大学罗斌教授、德国明斯特大学江晓怡教授等有关专家给予的指导和帮助,在此一并表示感谢。
徐立祥,著。 徐立祥,安徽大学-德国明斯特大学联合培养工学博士,副教授,主要研究方向为模式识别与数据挖掘。现任合肥学院信息与计算科学专业教研室主任,安徽省人工智能理事。主持教育部人文社会科学青年基金、安徽省高校自然科学研究重点基金、安徽省高校很好青年骨干人才国外访学研修重点基金、安徽省教育厅高等学校很好青年人才基金、安徽省科技厅重点实验室开放基金等研究基金各1项,参与国家自然基金1项,发明1项。