语音情感识别(Speech Emotion Recognition,SER)是情感计算、模式识别、信号处理和人机交互领域的热门研究话题,SER的研究涉及特征提取、特征优选、分类器改进、特征融合等多种技术。语音情感识别是在同一数据库中进行的识别研究,主要应用于自然的人机交互领域,目前大部分的人机交互方式都依赖于触觉,如触屏、体感等,而语音情感计算可以帮助电子设备在人机交互中使用图像和语音作为输入,让用户与设备进行自然、直接的交流,就像人与人的交流一样。跨库语音情感识别则是在跨语料库的条件下进行的识别实验,在实际生活中的应用环境很广,如车载环境中使用的语音交互产品,以及通过视频音频刺激来进行情感状态评估的设备等。本书将全局隐空间加入情感模型,结合K近邻、核学习方法、特征线重心法和LDA算法,提出了用于情感识别的FFLDA+kemel-KNNFLC方法。针对跨库条件下情感特征类别的改进(扩充)研究,提出了基于听觉注意模型的语谱图特征提FF取方法,模型模拟人耳听觉特性,能有效探测语谱图上变化的情感特征。同时,利用时频原子对模型进行改进,取得频率特性信号匹配的优势,从时域上提取情感信息。
第1章 绪论
1.1 研究背景与意义
1.1.1 语音情感的声学意义
1.1.2 情感计算
1.1.3 实际应用
1.1.4 语音情感识别的研究现状
1.2 跨数据库语音情感识别技术
1.2.1 发展历史
1.2.2 研究现状和存在的问题
1.3 研究的主要工作
1.4 章节安排
第2章 数据库和特征分析
2.1 语音情感数据库
2.1.1 国外语料库
2.1.2 国内语料库
2.1.3 本书使用的数据库情况
2.1.4 跨库情感类别划分规则的制订
2.2 特征分析
2.2.1 声学特征
2.2.2 底层声学描述符
2.2.3 语谱图特征
2.3 性能评价标准讨论
第3章 基于无限t分布的混合鲁棒模型
3.1 引言
3.2 基于统计模型的特征选择方案
3.3 iSMM特征优选模型
3.3.1 学生t分布特征选择
3.3.2 特征概率分布建模
3.3.3 判决函数评估
3.3.4 高维特征空间分析
3.4 实验结果
3.4.1 实验设置
3.4.2 表演型语料库实验
3.4.3 自发型语料库实验
3.4.4 多数据库综合实验分析
3.5 本章小结
第4章 改进的LDA核K近邻分类方法
4.1 引言
4.2 结合LDA的核K近邻分类方法
4.2.1 基于核学习的KNN算法
4.2.2 恃征线重心法的改进
4.2.3 线性判别分析的改进
4.3 实验结果分析
4.3.1 几种KNN分类器对比实验
4.3.2 两种降维方案的情感识别实验
4.3.3 与常用分类方法对比实验
4.3.4 分类方案参数实验分析
4.4 本章小结
第5章 改进的听觉注意模型语谱图特征提取
5.1 引言
5.2 基于听觉注意的语谱图情感特征提取
5.2.1 语谱图特征的语音情感识别
5.2.2 基于时频原子的改进
5.2.3 听觉注意图谱特征提取
5.3 仿真实验
5.3.1 跨库实验设置
5.3.2 实验结果和分析
5.4 本章小结
第6章 基于深度信念网络的特征融合
6.1 引言
6.2 选择注意机制的语谱图特征提取
6.2.1 提取语谱图
6.2.2 高斯金字塔分解
6.2.3 获取特征图并重构特征矩阵
6.3 深度信念网络模型
6.3.1 受限玻尔兹曼机
6.3.2 基于对比散度的快速学习算法
6.3.3 DBN21与DBN22模型
6.4 跨库实验结果与分析
6.4.1 实验准备
6.4.2 语谱图特征跨库实验
6.4.3 传统声学特征跨库实验
6.4.4 融合特征跨库实验
6.5 本章小结
第7章 跨语言的多说话人特征自适应
7.1 引言
7.2 特征分析
7.2.1 增强
7.2.2 自适应规整化语谱图特征
7.3 特征自适应方法
7.3.1 说话人加性方差模型
7.3.2 基于GMM的加性模型
7.3.3 学生t分布对差异特征空间的建模
7.4 .情感分类器模型
7.4.1 核K近邻情感分类器
7.4.2 SVM情感分类器
7.5 跨语言语音情感识别实验
7.5.1 数据库设置
7.5.2 说话人自适应实验
7.5.3 在线特征自适应实验
7.5.4 谱特征对比实验
7.6 本章小结
第8章 总结与展望
8.1 工作总结
8.2 后续工作与展望
参考文献