数据分析原理与实践 基于经典算法及Python编程实现
定 价:89.9 元
丛书名:启迪数字学院系列丛书
本书主要采用理论学习与实践操作并重、上层应用与底层原理相结合的方式讲解数据分析师需要掌握的数据分析基础知识,包括基础理论、关联规则分析、回归分析、分类分析、聚类分析、集成学习、自然语言处理、图像处理和深度学习。每章内容从7个方面展开讲解:包括应用场景、算法原理、核心术语、Python编程实践、重点与难点解读、习题和主要参考文献及推荐阅读书目。本书在编写过程中不仅充分借鉴了国内外著名大学设立的相关课程、专家学者的代表性成果,以及近几年的热门畅销书,而且也考虑到了国内相关课程的教学以及相关从业人员自学的需求。本书可以满足数据科学与大数据技术、大数据管理与应用、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统、商业分析等多个专业的教师、学生的教学和学习需要,也适合广大从事数据分析工作的人员学习参考。
一流本科课程数据科学导论负责人,数据科学50人,中国人民大学青年杰出学者朝乐门老师新作。聚焦数据分析经典算法,夯实数据分析师核心技能基础。对算法从应用场景、算法原理、核心术语、Python编程实践、重点与难点解读、习题和主要参考文献及推荐阅读书目七个维度进行介绍,内容全面实用。
数据分析已成为现代人才必备的能力之一。然而,数据分析能力是一种综合素质,不仅需要扎实的理论功底,而且还需要丰富的实践经验。在理论学习方面,数据分析师必须具备机器学习、统计学、数据分析、高等数学、线性代数、运筹学、离散数学、人工智能、数据库、数据仓库、数据挖掘等基础知识;在实践操作方面,数据分析师需要积累大量的实际动手操作经验,尤其是基于Python语言的开源工具的数据分析实战经验。因此,如何有效学习数据分析理论和进行实践已成为多数初学者所面临的挑战。破解这一难题的关键在于师资和教材。遇到一位好老师或一本好书,对于初学者而言是机遇也是幸运。我认为,一本好的数据分析图书需要同时满足以下条件:不仅能读懂,而且能读下去;能激发深入学习的兴趣,增强读者继续学习的信心;不仅有理论知识,而且有实践操作;融会贯通数据分析的多种基础理论,不受限于单一理论;探讨更好的学习思路,提供更丰富的实践技巧;有特色,有智慧。但是,很多同学和朋友曾多次跟我反映,很难找到这样的好书。对此,我都会回答:那么,等我写一本吧!这就是我写本书的初心和使命。本书的编写过程是一个反复打磨的过程,融入了我和我的团队长期从事数据科学与大数据分析相关的教学一线、科学研究和数据分析的实践经验,以及我应邀担任多个企事业单位数据科学家或大数据顾问的经验。同时,本书不仅吸收了国际一流大学及国外相关领域的标志性成果及最新进展,而且充分体现了我国数据分析人才培养的需要及未来社会人才需求的基本要求。本书由朝乐门主编,完成了顶层设计、内容选择、知识讲解和注解点评,张晨(第2章和第7章)、余欣(第3章)、刘璇(第3章、第6章)、王锐(第3章、第4章)、孙智中(第4章)、尹显龙(第4章)、斳庆文(第4章、第5章)、肖纪文(第6章)、熊雷(第9章)、任安兴(第8章)参与部分内容的编写工作,邓宁远参与了校对工作,在此一并感谢。同时,本书出版得到了机械工业出版社的王斌编辑、中国人民大学、启迪数字学院、阿里云计算有限公司产学合作协同育人项目以及本书编委会的指导与帮助,在此感谢他们的鼎力支持。本书在编写过程中参考和引用了大量国内外文献资料,虽尽可能地标注了出处,但也难免有遗漏。因此,也向有关作者表示衷心的感谢。由于我们的水平有限,疏漏、不足乃至错误之处在所难免,敬请各位专家批评指正。朝乐门2022年6月18日于中国人民大学中关村校区
朝乐门,一流本科课程数据科学导论负责人,数据科学50人,中国人民大学青年杰出学者;中国计算机学会信息系统专委员会执行委员、全国高校人工智能与大数据创新联盟专家委员会副主任;核心期刊《计算机科学》执行编委、英文期刊Data Scienceand Informatics副主编;荣获高等学校科学研究优秀成果奖、IBM全球卓越教师奖、留学基金委-IBM中国优秀教师奖教金等多种奖励30余项;曾出版我国*早系统阐述数据科学的重要专著之一《数据科学》。
第1章数据分析概述1.1数据分析的基本类型1.2数据分析与机器学习1.2.1统计学与机器学习1.2.2机器学习算法的类型1.2.3机器学习中的算法、模型、参数和超参数1.2.4数据分析中的基础算法1.2.5数据分析中的高级算法1.3数据分析的主要流程1.4数据分析中的算法选择1.5数据分析中常用的Python包1.5.1NumPy1.5.2Pandas1.5.3Matplotlib1.5.4Seaborn1.5.5statsmodels1.5.6scikitlearn1.5.7jieba1.5.8OpenCV1.5.9TensorFlow和PyTorch1.6数据分析的注意事项1.7数据分析的现状与趋势1.8习题1.9主要参考文献及推荐阅读书目第2章关联规则分析2.1应用场景2.2算法原理2.2.1Apriori算法的假设2.2.2Apriori算法的流程2.3核心术语2.3.1事务型数据2.3.2项集2.3.3支持度2.3.4置信度2.3.5提升度2.3.6关联规则2.4Python编程实践购物车分析2.4.1业务理解2.4.2数据读入2.4.3数据理解2.4.4数据预处理2.4.5生成频繁项集2.4.6计算关联度2.4.7可视化2.5重点与难点解读2.6习题2.7主要参考文献及推荐阅读书目第3章回归分析3.1应用场景3.2算法原理3.2.1基本思路3.2.2评价方法3.3核心术语3.3.1回归分析中常用的统计量3.3.2特征矩阵与目标向量3.3.3过拟合与欠拟合3.3.4高杠杆点、离群点和强影响点3.4Python编程实践3.4.1线性回归女性身高与体重数据分析3.4.2多元回归广告收入数据分析3.4.3泊松回归航班数据分析3.5重点与难点解读3.5.1参数解读线性回归算法3.5.2ZScore标准化3.5.3方差3.5.4相关系数3.5.5泊松分布3.5.6L1和L2正则化3.5.7闵氏距离、欧氏距离、曼哈顿距离和切比雪夫距离3.6习题3.7主要参考文献及推荐阅读书目第4章分类分析4.1应用场景4.2算法原理4.1.1KNN4.1.2贝叶斯分类4.1.3支持向量机4.1.4逻辑回归4.3核心术语4.3.1偏差和方差之间的权衡4.3.2学习曲线4.3.3混淆矩阵4.3.4ROC曲线与AUC面积4.3.5贝叶斯理论4.3.6核函数及核技巧4.4Python编程实践病例自动诊断分析4.4.1使用KNN算法实现4.4.2使用贝叶斯分类算法实现4.4.3使用SVM算法实现4.4.4使用逻辑回归算法实现4.5重点与难点解读4.5.1参数解读KNN、贝叶斯分类、SVM和逻辑回归算法4.5.2数据标准化处理4.5.3混淆矩阵及分类算法的评价指标4.5.4最大似然估计4.5.5判别模型与生成模型4.5.6类别不平衡问题4.5.7KD Tree与Ball Tree4.5.8GridSearchCV及其原理4.5.9GaussianNB、MultinomialNB和BernoulliNB的区别4.5.10LabelEncoder及其原理4.6习题4.7主要参考文献及推荐阅读书目第5章聚类分析5.1应用场景5.2算法原理5.2.1kmeans算法5.2.2聚类效果的评价5.3核心术语5.4Python编程实践蛋白质消费特征分析5.4.1业务理解5.4.2数据读入5.4.3数据理解5.4.4数据准备5.4.5模型训练5.4.6模型评价5.4.7模型调参5.4.8模型预测5.5重点与难点解读5.5.1参数解读kmeans算法5.5.2kmeans 方法5.5.3elkan方法5.6习题5.7主要参考文献及推荐阅读书目第6章集成学习6.1应用场景6.2算法原理6.2.1随机森林6.2.2XGBoost6.3核心术语6.4Python编程实践房屋价格预测分析6.4.1使用随机森林算法实现6.4.2使用XGBoost实现6.5重点与难点解读6.5.1参数解读随机森林和XGBoost6.5.2纯度最大化6.5.3数据标准化6.5.4泰勒展开式6.5.5集成学习中几个注意事项6.6习题6.7主要参考文献及推荐阅读书目第7章自然语言处理7.1应用场景7.2算法原理7.2.1中文分词7.2.2词袋模型7.2.3Ngrams模型7.2.4TFIDF算法7.2.5文本规范化7.2.6词性标注7.3核心术语7.4Python编程实践2021年政府工作报告分析7.4.1业务理解7.4.2数据读入7.4.3分词处理7.4.4添加自定义词汇7.4.5词性标注7.4.6停用词处理7.4.7词性分布分析7.4.8高频词分析7.4.9关键词抽取7.4.10绘制词云图7.5重点与难点解读7.5.1NLTK的词性标注7.5.2NLTK的功能模块7.6习题7.7主要参考文献及推荐阅读书目第8章图像处理8.1应用场景8.2算法原理8.2.1建模阶段8.2.2检测阶段8.3核心术语8.4Python编程实践人脸检测分析8.4.1安装并导入OpenCVpython包8.4.2读取图像文件8.4.3将RGB图像转换为灰度图8.4.4人脸检测与矩阵标识8.4.5图像显示8.4.6图像保存8.5重点与难点解读8.5.1参数解读OpenCV8.5.2AdaBoost算法8.5.3基于OpenCV和CNN的图像处理的对比8.5.4Haar特征和LBP特征的对比分析8.5.5AdaBoost算法和XGboost算法的主要区别8.6习题8.7主要参考文献及推荐阅读书目第9章深度学习9.1应用场景9.2算法原理9.2.1全连接神经网络及其缺点9.2.2全连接神经网络的改进及卷积神经网络的提出9.2.3卷积神经网络的基本思路9.2.4CNN的整体流程9.3核心术语9.4Python编程实践手写数字识别分析9.4.1业务理解9.4.2数据读入及理解9.4.3数据准备9.4.4数据理解9.4.5定义CNN的学习框架9.4.6执行CNN学习及模型训练9.4.7模型评价9.4.8模型预测9.5重点与难点解读9.5.1参数解读CNN算法9.5.2机器学习中的性能与可解释性的矛盾9.5.3随机梯度下降及学习率9.5.4Onehot encoding9.5.5端到端的学习9.5.6CNN与其他深度学习方法的区别及联系9.5.7CNN算法设置超参数的经验法则9.6习题9.7主要参考文献及推荐阅读书目附录习题参考答案