第1章 数据的重要性 001
1.1 数据在AI 大模型中的核心作用002
1.1.1 大模型的数据驱动特性002
1.1.2 数据与模型精度的关系004
1.2 数据质量对模型性能的影响006
1.2.1 数据噪声与模型偏差006
1.2.2 数据完整性与一致性007
1.3 大数据时代的数据挑战008
1.3.1 数据存储与管理008
1.3.2 数据隐私与安全009
1.4 新兴技术在数据处理中的应用 010
1.4.1 云计算与分布式存储 010
1.4.2 边缘计算与实时数据处理 011
1.4.3 人工智能和机器学习在数据处理中的应用 012
第2章 数据采集与清洗 014
2.1 数据采集的方法 015
2.1.1 网络爬虫与数据抓取 015
2.1.2 数据库与数据集的利用 017
2.1.3 传感器与实时数据采集 017
2.2 数据清洗的技术022
2.2.1 缺失值处理022
2.2.2 噪声与异常值检测024
2.2.3 数据一致性与重复值处理027
第3章 数据探索与可视化029
3.1 数据探索的目的与方法030
3.1.1 探索性数据分析(EDA)030
3.1.2 数据探索工具和技术 031
3.2 数据可视化技术032
3.2.1 基本图表与统计图表033
3.2.2 高级可视化技术033
3.3 数据特征和模式的发现034
3.3.1 数据分布与统计特征035
3.3.2 相关性分析037
3.4 新兴可视化技术038
3.4.1 增强现实(AR)与虚拟现实(VR)可视化039
3.4.2 动态与实时数据可视化040
第4章 特征选择042
4.1 特征选择的重要性043
4.1.1 特征选择对模型性能的影响044
4.1.2 过拟合与特征选择045
4.2 常用特征选择方法047
4.2.1 过滤法048
4.2.2 包装法048
4.2.3 嵌入法049
4.3 特征选择后的评估指标049
4.3.1 特征重要性评分050
4.3.2 交叉验证050
4.4 新兴特征选择方法052
4.4.1 基于强化学习的特征选择052
4.4.2 自适应特征选择技术053
第5章 特征提取055
5.1 特征提取的概念与意义056
5.1.1 特征提取在数据处理中的角色056
5.1.2 特征提取的基本流程058
5.2 从原始数据中提取特征的方法059
5.2.1 数值数据的特征提取059
5.2.2 类别数据的特征提取060
5.3 自动化特征提取工具与技术062
5.3.1 自动编码器062
5.3.2 深度学习中的特征提取064
5.4 新兴特征提取技术065
5.4.1 基于生成对抗网络(GAN)的特征提取066
5.4.2 迁移学习中的特征提取066
第6章 特征构造068
6.1 特征构造的重要性069
6.1.1 特征构造对模型的影响069
6.1.2 领域知识在特征构造中的应用069
6.2 常用特征构造方法070
6.2.1 数学变换与组合070
6.2.2 领域知识与特征交互 071
6.3 特征构造的实践案例072
6.4 新兴特征构造技术073
6.4.1 基于图神经网络(GNN)的特征构造073
6.4.2 多模态数据的特征构造074
第7章 数据转换076
7.1 数据标准化与归一化077
7.1.1 标准化方法077
7.1.2 归一化技术078
7.2 数据变换技术079
7.2.1 对数变换与幂变换079
7.2.2 离散化与二值化 081
7.3 新兴数据转换技术083
7.3.1 基于量子计算的数据变换083
7.3.2 自适应数据变换方法084
第8章 降维技术087
8.1 降维的意义088
8.1.1 降维对计算复杂度的影响088
8.1.2 降维与数据可视化 089
8.2 主成分分析(PCA)089
8.2.1 PCA 的基本原理089
8.2.2 PCA 在实际中的应用 090
8.3 t-SNE 091
8.3.1 t-SNE 的基本原理 091
8.3.2 t-SNE 在高维数据中的应用 092
8.4 其他降维方法093
8.4.1 线性判别分析(LDA)093
8.4.2 非负矩阵分解(NMF)095
8.5 新兴降维技术097
8.5.1 基于深度学习的降维方法097
8.5.2 非线性降维技术097
第9章 文本特征工程099
9.1 自然语言处理中的特征工程 100
9.1.1 NLP 中特征工程的重要性 100
9.1.2 NLP 中的常用特征 100
9.2 文本预处理 101
9.2.1 分词与词形还原 101
9.2.2 停用词与词频 102
9.3 文本特征提取方法 102
9.3.1 词袋模型(BoW) 102
9.3.2 TF-IDF 104
9.3.3 词向量与词嵌入表示 105
9.4 新兴文本特征提取技术 107
9.4.1 基于BERT 的特征提取 107
9.4.2 多语言嵌入技术 108
第10章 图像和音频特征工程 110
10.1 图像数据的特征提取111
10.1.1 基本图像处理技术111
10.1.2 深度学习中的图像特征提取 113
10.2 音频数据的特征提取 115
10.2.1 时域与频域特征 115
10.2.2 声谱图与MFCC 116
10.3 新兴图像与音频特征提取技术 117
10.3.1 基于卷积神经网络(CNN)的特征提取 117
10.3.2 基于Transformer 的特征提取 118
第11章 时间序列分析 120
11.1 时间序列数据的特点 121
11.1.1 时间序列数据的独特性 121
11.1.2 时间序列数据的预处理 123
11.2 时间序列特征提取 125
11.2.1 基本统计特征 125
11.2.2 滑动窗口与时间延迟嵌入 126
11.3 时间序列预测模型 128
11.4 新兴时间序列分析技术 130
11.4.1 基于注意力机制的时间序列分析 130
11.4.2 变分自编码器(VAE)在时间序列中的应用 131
第12章 模型与特征的交互 132
12.1 模型选择对特征工程的影响 133
12.1.1 模型与特征选择的协同作用 133
12.1.2 不同模型对特征工程的要求 134
12.2 特征重要性评估与模型解释 135
12.2.1 特征重要性评估方法 136
12.2.2 模型解释与可解释性 137
12.3 不同模型的特征工程策略 138
12.3.1 线性模型 138
12.3.2 非线性模型 139
12.3.3 集成模型 140
12.4 新兴模型与特征交互技术 140
12.4.1 基于混合专家模型的特征工程 141
12.4.2 自适应模型选择与特征优化 141
第13章 自动化特征工程 143
13.1 自动化特征选择 144
13.1.1 自动化特征选择工具 144
13.1.2 自动化特征选择的优势 146
13.2 自动化特征构造 146
13.2.1 自动化特征构造工具 147
13.2.2 实践中的自动化特征构造 148
13.3 自动化特征工程平台与实践案例 149
13.3.1 现有自动化特征工程平台介绍 149
13.3.2 自动化特征工程的成功案例 150
13.4 新兴自动化特征工程技术 151
13.4.1 基于AutoML 的特征工程 152
13.4.2 生成对抗网络(GAN)在特征工程中的应用 153