本书内容翔实,结构清晰,主要分为三大部分。
第一部分:基础概念篇。此部分将引领您踏入实践真实数据科学的门槛,详细解析PCS框架的精髓,并对DSLC进行全面概述。同时介绍一系列计算概念,这些概念将成为您后续实施示例和技术的坚实基石。此外,本书还将指导您如何在计算机上高效组织数据科学项目,传授编写高效代码的经验,并助您熟练运用Git和GitHub等开发工具。
第二部分:数据准备与探索篇。在这一部分,我们将深入探讨数据清理、预处理及数据爆炸等核心议题。尽管每个数据科学项目都会涉及数据清理和预处理工作,但本书将为您提供前所未有的详细指导。您将了解到,虽然数据清理工作繁琐,但对于全面理解数据至关重要。此外,本书还将引导您运用数据可视化、维度缩小及聚类等技术,深入挖掘数据中的隐藏模式和趋势。随着阅读的深入,您将逐渐领略到PCS框架的强大威力。
第三部分:预测与分析篇。本书的最后一部分将聚焦于预测问题,为您呈现一系列生成预测的先进技术。这些技术将基于一系列常见统计和机器学习(ML)算法,助您做出明智的决策。当您进入第三部分时,您将能够熟练进行一般PCS评估,以评估数据科学结果的可信度。
郁彬,本科毕业于北京大学数学系,在加州大学伯克利分校取得了统计学硕士与博士学位。曾执教过美国的威斯康星大学麦迪逊分校,1993年加入伯克利分校统计系任教,2009年曾担任过加州大学伯克利分校统计系主任,目前是统计系与电气工程与计算机科学系终身教授。2013年当选美国艺术与科学院院士,2014年当选美国国家科学院院士。郁彬教授是统计理论、高维数据分析、机器学习等方面国际著名学者。她的交叉学科研究即广泛又深入,包括神经科学、遥感、生物信息、及文本总结。她的多项工作均在理论和应用领域有很大影响,其中最近的一项工作为,和合作者利用fMRI分析解码人类在观看影片时的大脑视觉信号来重建影片中的影像,该工作被时代周刊评为年度top50发明之一 。她在顶尖的科学期刊上发表了70余篇论文,涉及统计、机器学习、信息论、信号处理、遥感、神经科学和网络研究等领域。她还在许多期刊中担任编委,比如统计年刊(Annals of Statistics)、美国统计学会会刊(Journal of American Statistical Association)、机器学习研究期刊(Journal of Machine Learning Research)和技术计量学(Technometrics)
第1部分 简介
第1章 真实数据科学简介
1.1 数据和算法在现实决策中的作用
1.2 运用批判性思维评估和建立可信度
1.3 使用 PCS 框架评估和建立可信度
练习题
第2章 数据科学生命周期
2.1 数据术语
2.2 DSLC 阶段1:问题构建和数据收集
2.3 DSLC 阶段2:数据清洗、预处理和探索性数据分析
2.4 DSLC 阶段3:探索数据的内在结构
2.5 DSLC 阶段4:预测和/或推断分析
2.6 DSLC 阶段5:评估结果
2.7 DSLC 阶段6:沟通结果和更新领域知识
练习题
第3章 建立数据科学项目
3.1 编程语言和集成开发环境
3.2 一致的项目结构
3.3 可重复性
3.4 协作工具
练习题
第2部分 准备、探索和描述数据
第4章 数据准备
4.1 器官捐献数据
4.2 通用的数据清洗流程
4.3 步骤1:了解数据收集过程和问题域
4.4 步骤2:加载数据 / 57
4.5 步骤3:检查数据并创建操作项
4.6 步骤4:清洗数据
4.7 其他常见的预处理步骤
练习题
第5章 探索性数据分析
5.1 基于问答的探索性数据分析工作流程
5.2 常见的数据汇总方法
5.3 可比性
5.4 探索性数据分析结果的PCS审查
练习题
第6章 主成分分析
6.1 食物营养项目
6.2 生成归纳变量:主成分分析
6.3 预处理:为了可比性的标准化
6.4 奇异值分解
6.5 预处理:高斯性和变换
6.6 主成分分析步骤总结
6.7 PCS评估主成分分析
6.8 将主成分分析应用于每个营养组
6.9 主成分分析的替代方法
练习题
第7章 聚类
7.1 理解聚类
7.2 层次聚类
7.3 K-means 聚类
7.4 高维聚类可视化
7.5 聚类质量的定量度量
7.6 比较聚类相似性的兰德指数
7.7 选择类别数
7.8 聚类结果的PCS审查
7.9 最终的聚类结果
练习题
第3部分 预测
第8章 预测问题简介
8.1 连接过去、现在和未来的预测问题
8.2 设置预测问题
8.3 PCS和评估预测算法
8.4 艾奥瓦州艾姆斯房价预测项目
练习题
第9章 连续响应和最小二乘法
9.1 可视化预测关系
9.2 使用拟合直线生成预测
9.3 计算拟合直线
9.4 预测性能的量化指标1
9.5 预测结果的 PCS 审查
练习题
第10章 最小二乘法的推广
10.1 基于多个解释变量的线性拟合
10.2 预处理:独热编码
10.3 预处理:变量变换
10.4 变量选择
10.5 正则化
10.6 PCS评估
10.7 附录:线性拟合的矩阵形式
练习题
第11章 二元响应变量和逻辑回归
11.1 在线购物购买预测项目
11.2 二元预测的最小二乘法
11.3 逻辑回归
11.4 二元预测性能的定量度量
11.5 二元预测结果的PCS审查
练习题
第12章 决策树和随机森林算法
12.1 决策树
12.2 分类与回归树算法
12.3 随机森林算法
12.4 随机森林变量重要性度量
12.5 CART和RF算法的PCS评估
练习题
第13章 生成最终预测结果
13.1 方法1:使用PCS选择单一预测拟合
13.2 方法2:PCS集成
13.3 方法3:校准的PCS预测扰动区间
13.4 选择最终预测方法
13.5 在实际应用中使用预测
练习题
第14章 结论
14.1 可预测性
14.2 稳定性和不确定性
14.3 PCS的未来方向:推断
14.4 结束语
判断练习参考答案
参考文献