数据分析原理与实践基于经典算法及Python编程实现_朝乐门主编_9787111710820

本书主要采用理论学习与实践操作并重、上层应用与底层原理相结合的方式讲解数据分析师需要掌握的数据分析基础知识，包括基础理论、关联规则分析、回归分析、分类分析、聚类分析、集成学习、自然语言处理、图像处理和深度学习。每章内容从7个方面展开讲解：包括应用场景、算法原理、核心术语、Python编程实践、重点与难点解读、习题和主要参考文献及推荐阅读书目。
本书在编写过程中不仅充分借鉴了国内外著名大学设立的相关课程、专家学者的代表性成果，以及近几年的热门畅销书，而且也考虑到了国内相关课程的教学以及相关从业人员自学的需求。
本书可以满足数据科学与大数据技术、大数据管理与应用、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统、商业分析等多个专业的教师、学生的教学和学习需要，也适合广大从事数据分析工作的人员学习参考。

数据分析已成为现代人才必备的能力之一。然而，数据分析能力是一种综合素质，不仅需要扎实的理论功底，而且还需要丰富的实践经验。在理论学习方面，数据分析师必须具备机器学习、统计学、数据分析、高等数学、线性代数、运筹学、离散数学、人工智能、数据库、数据仓库、数据挖掘等基础知识；在实践操作方面，数据分析师需要积累大量的实际动手操作经验，尤其是基于Python语言的开源工具的数据分析实战经验。因此，如何有效学习数据分析理论和进行实践已成为多数初学者所面临的挑战。
破解这一难题的关键在于师资和教材。遇到一位好老师或一本好书，对于初学者而言是机遇也是幸运。我认为，一本好的数据分析图书需要同时满足以下条件：不仅能读懂，而且能读下去；能激发深入学习的兴趣，增强读者继续学习的信心；不仅有理论知识，而且有实践操作；融会贯通数据分析的多种基础理论，不受限于单一理论；探讨更好的学习思路，提供更丰富的实践技巧；有特色，有智慧。但是，很多同学和朋友曾多次跟我反映，很难找到这样的好书。对此，我都会回答：那么，等我写一本吧！这就是我写本书的初心和使命。
本书的编写过程是一个反复打磨的过程，融入了我和我的团队长期从事数据科学与大数据分析相关的教学一线、科学研究和数据分析的实践经验，以及我应邀担任多个企事业单位数据科学家或大数据顾问的经验。同时，本书不仅吸收了国际一流大学及国外相关领域的标志性成果及最新进展，而且充分体现了我国数据分析人才培养的需要及未来社会人才需求的基本要求。
本书由朝乐门主编，完成了顶层设计、内容选择、知识讲解和注解点评，张晨（第2章和第7章）、余欣（第3章）、刘璇（第3章、第6章）、王锐（第3章、第4章）、孙智中（第4章）、尹显龙（第4章）、斳庆文（第4章、第5章）、肖纪文（第6章）、熊雷（第9章）、任安兴（第8章）参与部分内容的编写工作，邓宁远参与了校对工作，在此一并感谢。同时，本书出版得到了机械工业出版社的王斌编辑、中国人民大学、启迪数字学院、阿里云计算有限公司产学合作协同育人项目以及本书编委会的指导与帮助，在此感谢他们的鼎力支持。
本书在编写过程中参考和引用了大量国内外文献资料，虽尽可能地标注了出处，但也难免有遗漏。因此，也向有关作者表示衷心的感谢。由于我们的水平有限，疏漏、不足乃至错误之处在所难免，敬请各位专家批评指正。
朝乐门
2022年6月18日
于中国人民大学中关村校区

第1章数据分析概述
1.1数据分析的基本类型
1.2数据分析与机器学习
1.2.1统计学与机器学习
1.2.2机器学习算法的类型
1.2.3机器学习中的算法、模型、
参数和超参数
1.2.4数据分析中的基础算法
1.2.5数据分析中的高级算法
1.3数据分析的主要流程
1.4数据分析中的算法选择
1.5数据分析中常用的Python包
1.5.1NumPy
1.5.2Pandas
1.5.3Matplotlib
1.5.4Seaborn
1.5.5statsmodels
1.5.6scikitlearn
1.5.7jieba
1.5.8OpenCV
1.5.9TensorFlow和PyTorch
1.6数据分析的注意事项
1.7数据分析的现状与趋势
1.8习题
1.9主要参考文献及推荐阅读书目
第2章关联规则分析
2.1应用场景
2.2算法原理
2.2.1Apriori算法的假设
2.2.2Apriori算法的流程
2.3核心术语
2.3.1事务型数据
2.3.2项集
2.3.3支持度
2.3.4置信度
2.3.5提升度
2.3.6关联规则
2.4Python编程实践购物车分析
2.4.1业务理解
2.4.2数据读入
2.4.3数据理解
2.4.4数据预处理
2.4.5生成频繁项集
2.4.6计算关联度
2.4.7可视化
2.5重点与难点解读
2.6习题
2.7主要参考文献及推荐阅读书目
第3章回归分析
3.1应用场景
3.2算法原理
3.2.1基本思路
3.2.2评价方法
3.3核心术语
3.3.1回归分析中常用的统计量
3.3.2特征矩阵与目标向量
3.3.3过拟合与欠拟合
3.3.4高杠杆点、离群点和强影响点
3.4Python编程实践
3.4.1线性回归女性身高与体重
数据分析
3.4.2多元回归广告收入数据分析
3.4.3泊松回归航班数据分析
3.5重点与难点解读
3.5.1参数解读线性回归算法
3.5.2ZScore标准化
3.5.3方差
3.5.4相关系数
3.5.5泊松分布
3.5.6L1和L2正则化
3.5.7闵氏距离、欧氏距离、曼哈顿距离
和切比雪夫距离
3.6习题
3.7主要参考文献及推荐阅读书目
第4章分类分析
4.1应用场景
4.2算法原理
4.1.1KNN
4.1.2贝叶斯分类
4.1.3支持向量机
4.1.4逻辑回归
4.3核心术语
4.3.1偏差和方差之间的权衡
4.3.2学习曲线
4.3.3混淆矩阵
4.3.4ROC曲线与AUC面积
4.3.5贝叶斯理论
4.3.6核函数及核技巧
4.4Python编程实践病例自动诊断
分析
4.4.1使用KNN算法实现
4.4.2使用贝叶斯分类算法实现
4.4.3使用SVM算法实现
4.4.4使用逻辑回归算法实现
4.5重点与难点解读
4.5.1参数解读KNN、贝叶斯分类、
SVM和逻辑回归算法
4.5.2数据标准化处理
4.5.3混淆矩阵及分类算法的评价指标
4.5.4最大似然估计
4.5.5判别模型与生成模型
4.5.6类别不平衡问题
4.5.7KD Tree与Ball Tree
4.5.8GridSearchCV及其原理
4.5.9GaussianNB、MultinomialNB和
BernoulliNB的区别
4.5.10LabelEncoder及其原理
4.6习题
4.7主要参考文献及推荐阅读书目
第5章聚类分析
5.1应用场景
5.2算法原理
5.2.1kmeans算法
5.2.2聚类效果的评价
5.3核心术语
5.4Python编程实践蛋白质消费特征
分析
5.4.1业务理解
5.4.2数据读入
5.4.3数据理解
5.4.4数据准备
5.4.5模型训练
5.4.6模型评价
5.4.7模型调参
5.4.8模型预测
5.5重点与难点解读
5.5.1参数解读kmeans算法
5.5.2kmeans 方法
5.5.3elkan方法
5.6习题
5.7主要参考文献及推荐阅读书目
第6章集成学习
6.1应用场景
6.2算法原理
6.2.1随机森林
6.2.2XGBoost
6.3核心术语
6.4Python编程实践房屋价格预测
分析
6.4.1使用随机森林算法实现
6.4.2使用XGBoost实现
6.5重点与难点解读
6.5.1参数解读随机森林和
XGBoost
6.5.2纯度最大化
6.5.3数据标准化
6.5.4泰勒展开式
6.5.5集成学习中几个注意事项
6.6习题
6.7主要参考文献及推荐阅读书目
第7章自然语言处理
7.1应用场景
7.2算法原理
7.2.1中文分词
7.2.2词袋模型
7.2.3Ngrams模型
7.2.4TFIDF算法
7.2.5文本规范化
7.2.6词性标注
7.3核心术语
7.4Python编程实践2021年政府工作
报告分析
7.4.1业务理解
7.4.2数据读入
7.4.3分词处理
7.4.4添加自定义词汇
7.4.5词性标注
7.4.6停用词处理
7.4.7词性分布分析
7.4.8高频词分析
7.4.9关键词抽取
7.4.10绘制词云图
7.5重点与难点解读
7.5.1NLTK的词性标注
7.5.2NLTK的功能模块
7.6习题
7.7主要参考文献及推荐阅读书目
第8章图像处理
8.1应用场景
8.2算法原理
8.2.1建模阶段
8.2.2检测阶段
8.3核心术语
8.4Python编程实践人脸检测分析
8.4.1安装并导入OpenCVpython包
8.4.2读取图像文件
8.4.3将RGB图像转换为灰度图
8.4.4人脸检测与矩阵标识
8.4.5图像显示
8.4.6图像保存
8.5重点与难点解读
8.5.1参数解读OpenCV
8.5.2AdaBoost算法
8.5.3基于OpenCV和CNN的图像处理
的对比
8.5.4Haar特征和LBP特征的
对比分析
8.5.5AdaBoost算法和XGboost算法的
主要区别
8.6习题
8.7主要参考文献及推荐阅读书目
第9章深度学习
9.1应用场景
9.2算法原理
9.2.1全连接神经网络及其缺点
9.2.2全连接神经网络的改进及卷积
神经网络的提出
9.2.3卷积神经网络的基本思路
9.2.4CNN的整体流程
9.3核心术语
9.4Python编程实践手写数字识别
分析
9.4.1业务理解
9.4.2数据读入及理解
9.4.3数据准备
9.4.4数据理解
9.4.5定义CNN的学习框架
9.4.6执行CNN学习及模型训练
9.4.7模型评价
9.4.8模型预测
9.5重点与难点解读
9.5.1参数解读CNN算法
9.5.2机器学习中的性能与可解释性
的矛盾
9.5.3随机梯度下降及学习率
9.5.4Onehot encoding
9.5.5端到端的学习
9.5.6CNN与其他深度学习方法的区别
及联系
9.5.7CNN算法设置超参数的
经验法则
9.6习题
9.7主要参考文献及推荐阅读书目
附录习题参考答案

你还可能感兴趣

我要评论