这是一本金融商业数据分析的实战工具书。作者都是在金融行业有10~20年数据分析经验的资深专家,他们将多年来的项目经验、培训和咨询经验融合成了这本书。它将指导读者零基础掌握金融数据分析的工具、思路、方法和技巧,快速实现从入门到进阶的突破。
本书强调实战,方法论与实践相结合,所有案例均来自实际的金融业务,涵盖工具使用、数据处理、统计分析等数据分析的全流程。
本书内容共14章,可分为3篇。
分析工具篇(第1~4章):首先介绍了数据科学和数理统计的基本常识,然后讲解了数据分析工具SAS EG和Python的基础知识。
数据处理篇(第5~9章):首先通过描述性统计分析进行数据探索,继而讲到基本的报表和统计制图,还包括使用SAS EG进行数据处理,用Python进行数据整合、数据清洗,构建出满足分析需求的数据集。
统计分析篇(第10~14章):从统计学的基本概念引出假设检验与样本t检验,三大统计检验、构造预测模型,并分享基于时间序列算法的建模方法。
(1)作者背景资深:4位作者都是在金融领域有10~20年数据挖掘和分析经验的资深专家,技术功底深厚,业务经验丰富。
(2)高维指导低维:作者在金融行业有10~20年项目实战和项目咨询经验,深知初学者的难点和痛点,量身打造,事半功倍。
(3)金融业务驱动:以真实的业务场景和案例为驱动,涵盖金融数据分析的全流程,告别纯理论和不接地气。
(4)从入门到进阶:帮助读者零基础掌握金融数据分析的工具、思路、方法和技巧,快速实现从入门到进阶的突破。
为什么要写这本书
随着现代信息技术的不断发展,以大数据为基础的各类金融科技应用成为市场热点。近年来,随着数据治理不断被强化及数据资产的热度不断升温,各金融机构已经有了一定的数据基础。基于数据挖掘手段开展精准营销、风险管控、运营优化,已经成为数据应用的必然趋势。未来,随着物联网等技术的不断推广,数据量的增速将更为迅猛,大数据应用势不可挡。在大数据转型趋势下,各企业也在思考如何不被市场淘汰,如何使数据的价值化。
大数据应用一方面需要有数据可挖掘,另一方面需要数据分析专家。赋能金融企业内部人员,使之成为业务感知能力强、分析技术过硬的双料人才,是培养数据分析专家快捷、实际的途径。因此,市场上急需一本金融业务与数据分析技术相融合的参考书。
基于对当前金融机构在数据分析中的痛点、通病的认识,以及在业界一流企业和咨询公司的实践,我们决心编写一本适合金融行业数据分析人员入门的图书。
读者对象
根据当前金融行业数字化转型先进案例,我们知道客户、产品、运营等前台部门,以及数据管理、风险管理等中台部门的从业人员均需要具备数据分析思维。也就是说,本书面向的读者群包括:
营销、运营部门的数据分析师
风控部门的从业人员
大数据部门的工程师
高校数学、统计学、金融工程、计算机科学及技术等专业的学生
科技金融、金融大数据相关行业的同人
本书特色
虽然数据分析已经不是新概念,但是市面上系统地讲解金融行业数据分析师如何成长的书不多。本书在业务方面涵盖用户画像、客户价值预测、精准营销预测等,在方法论方面涵盖描述统计、假设推断、预测性建模等。同时,本书贴合金融行业的分析软件环境,将新兴的Python与传统的SAS相结合,以便于读者快速掌握相关技术。
另外,市面上Python的编程基础和机器学习图书众多,但是鲜有从数据分析角度进行讲解的,而且Python本身的数据分析软件包也不完善。在本书中,笔者结合多年的数据分析咨询经验,提供了常用的函数,便于读者在实际工作中快速上手。
如何阅读本书
本书共14章,分为3篇。
分析工具篇(第1~4章):介绍SAS EG的菜单操作和Python的入门知识。
数据处理篇(第5~9章):从构建统计指标和数据可视化开始讲解,将数据查询、数据整合、数据清洗相结合,构建出满足分析需求的数据集。
统计分析篇(第10~14章):从假设检验开始,介绍如何从业务洞察中获取灵感,然后用数据验证灵感,并且根据得到的灵感构建统计模型,以便预测客户的未来价值或者营销响应的概率。
其中,统计分析篇通过实例讲解数据分析应用,相比于前两篇更独立。如果你是一名有编程经验的高手,可以直接阅读这部分内容。如果你是一名初学者,请一定从第1章的基础理论知识开始学习。
勘误和支持
请关注微信公众号数据资管,以下载书中的演示数据和脚本,观看教学视频,交流问题和反馈意见。也可以发送邮件至453288431@qq.com与作者联系。期待得到你们的真挚反馈!
致谢
首先,感谢指导过我们工作和写作的各位领导、老师,正是他们的鼓励和鞭策才使得本书终面市。
其次,感谢机械工业出版社华章公司的策划编辑杨福川,他在这一年多时间中始终支持我们的写作,鼓励和帮助我们顺利完稿。
后,谨以此书献给我们亲爱的家人,以及众多热爱金融数据分析的朋友们!
张秋剑
就职于腾讯云金融拓展中心,从事微信财富营销管理、数据中台、AI应用等解决方案拓展工作,研究方向包括数字化转型、创新实践等。
张浩
曾任腾讯云金融首席架构师和星环科技金融行业技术总监,主要从事大数据、人工智能、云计算、区块链、联邦学习等相关技术研发与产品设计,具有丰富的企业架构设计、企业数字化战略转型运营与业务咨询经验。
周大川
就职于某中央金融企业金融科技研发中心,主要从事企业级数据平台开发、核心业务平台建设、AI赋能金融科技创新等工作,具有丰富的新一代金融业务系统建设经验。
常国珍
曾任毕马威咨询大数据总监,具有近20年数据挖掘、精益数据治理、数字化运营咨询经验,是金融信用风险、反欺诈和反洗钱算法领域的专家。
前言
分析工具篇
第1章 数据科学与数理统计2
1.1 数据科学的基本概念2
1.2 数理统计技术5
1.2.1 描述性统计分析5
1.2.2 统计推断与统计建模6
第2章 SAS EG数据操作基础8
2.1 SAS EG入门8
2.1.1 SAS EG简介8
2.1.2 SAS EG的窗口及菜单9
2.2 访问数据10
2.2.1 SAS EG实现方式11
2.2.2 SAS程序实现方式13
2.3 定义SAS数据集13
2.3.1 SAS数据的相关概念13
2.3.2 SAS EG实现方式16
2.3.3 SAS程序实现方式18
2.4 导入其他格式的数据文件19
2.4.1 SAS EG实现方式19
2.4.2 SAS程序实现方式21
第3章 Python编程基础22
3.1 Python概述22
3.2 Anaconda的安装及使用方法23
3.2.1 下载与安装23
3.2.2 使用Jupyter Notebook24
3.2.3 使用Spyder25
3.2.4 使用Conda管理第三方库27
3.3 Python的基本数据类型29
3.3.1 字符串29
3.3.2 浮点型和整型29
3.3.3 布尔类型30
3.3.4 其他数据类型31
3.4 Python的基本数据结构31
3.4.1 列表32
3.4.2 元组33
3.4.3 集合33
3.4.4 字典34
3.5 Python的编程结构35
3.5.1 三种基本的编程结构简介35
3.5.2 顺序结构35
3.5.3 分支结构36
3.5.4 循环结构37
3.6 Python的函数与模块40
3.6.1 Python的函数40
3.6.2 Python的模块42
3.7 使用Pandas读写结构化数据43
3.7.1 读数据43
3.7.2 写数据46
第4章 在SAS EG中使用程序47
4.1 如何在SAS EG中使用程序47
4.2 SAS程序49
4.2.1 SAS程序分析简介49
4.2.2 DATA步50
4.2.3 PROC步51
数据处理篇
第5章 描述性统计分析与制图54
5.1 描述性统计分析54
5.1.1 变量度量类型与分布类型54
5.1.2 变量的统计量56
5.1.3 连续变量的分布与集中趋势56
5.1.4 连续变量的离散程度58
5.1.5 数据分布的对称与高矮59
5.2 制作报表与统计图60
5.3 制图步骤及统计图适用场景64
5.4 利用SAS EG进行统计分析67
5.4.1 连续变量描述性统计分析67
5.4.2 单因子频数统计分析69
5.4.3 汇总统计分析72
5.4.4 绘制条形图进行统计分析76
5.4.5 绘制地图进行统计分析79
第6章 表数据的行处理82
6.1 数据筛选82
6.1.1 SAS EG实现方式82
6.1.2 SAS程序实现方式84
6.2 排序与求秩87
6.2.1 SAS EG实现方式87
6.2.2 SAS程序实现方式94
6.3 抽样95
6.3.1 抽样理论介绍95
6.3.2 SAS EG实现方式97
6.3.3 SAS程序实现方式99
6.4 数据分组和汇总100
6.4.1 SAS EG实现方式100
6.4.2 SAS程序实现方式102
第7章 表数据的列处理103
7.1 构造列变量103
7.2 拆分列105
7.3 堆叠列107
7.4 转置列110
7.4.1 SAS EG实现方式111
7.4.2 SAS 程序实现方式113
7.5 对列重编码114
7.5.1 SAS EG实现方式114
7.5.2 SAS程序实现方式119
7.6 变量标准化119
7.6.1 SAS EG实现方式120
7.6.2 SAS程序实现方式122
第8章 数据集的操作124
8.1 纵向连接124
8.1.1 SAS EG实现方式125
8.1.2 SAS程序实现方式127
8.2 横向连接131
8.2.1 SAS EG实现方式131
8.2.2 SAS程序实现方式135
8.3 数据集的比较138
8.3.1 SAS EG实现方式138
8.3.2 SAS程序实现方式141
8.4 创建格式142
8.4.1 相关理论介绍142
8.4.2 SAS EG实现方式143
8.4.3 SAS程序实现方式146
8.5 删除数据集、格式和视图147
8.5.1 SAS EG实现方式147
8.5.2 SAS程序实现方式148
第9章 利用Python处理数据149
9.1 数据整合150
9.1.1 行操作和列操作150
9.1.2 条件查询152
9.1.3 横向连接155
9.1.4 纵向合并157
9.1.5 排序159
9.1.6 分组汇总160
9.1.7 拆分与堆叠列163
9.1.8 赋值与条件赋值165
9.2 数据清洗167
9.2.1 重复值处理167
9.2.2 缺失值处理168
9.2.3 噪声值处理170
9.3 实战175
9.3.1 提取行为特征的RFM方法175
9.3.2 使用RFM方法计算变量176
9.3.3 数据整理与汇报177
统计分析篇
第10章 数据科学的统计推断180
10.1 基本的统计学概念180
10.1.1 总体、样本和统计量180
10.1.2 点估计、区间估计和中心极限定理181
10.2 假设检验186
10.2.1 理论介绍186
10.2.2 利用Python实现单样本t检验189
10.2.3 利用SAS EG实现单样本t检验189
10.2.4 利用SAS EG实现双样本t检验189
10.2.5 利用Python实现双样本t检验191
10.3 方差分析193
10.3.1 利用Python实现单因素方差分析193
10.3.2 利用SAS EG实现单因素方差分析198
10.3.3 利用Python实现多因素方差分析202
10.3.4