数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。
本书是介绍写给程序员的一本数据挖掘指南,可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。全书共8章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容。全书采用做中学的方式,用生动的图示、大量的表格、简明的公式,实用的Python代码示例,阐释数据挖掘的知识和技能。每章还给出了习题和练习,帮助读者巩固所学的知识。
本书专注适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为一本轻松有趣的数据挖掘课程教学参考书。
大多数数据挖掘的教材都专注于介绍理论基础,因而往往难以理解和学习。 本书是介绍写给程序员的一本数据挖掘指南,可以帮助读者动手实践进行数据挖掘、集体智慧并构建推荐系统。 本书作者采用在实践中学的方式,提供了Python的代码和案例,详细介绍如何应用数据挖掘技术,开发出实用的推荐系统。 本书英文版在网络上放出样章,得到很多业内知名人士的推荐和好评。 知名技术译者王斌老师译作,翻译质量上乘 数据挖掘一般是指通过算法搜索隐藏于大量的数据之中的信息的过程。众多的数据挖掘教材都专注于介绍理论基础,因而往往难以理解和学习。 本书是专门写给程序员的一本数据挖掘指南,可以帮助读者动手实践,进行数据挖掘、应用集体智慧并构建推荐系统。 全书共8 章,介绍了数据挖掘的基本知识和理论、协同过滤、内容过滤及分类、算法评估、朴素贝叶斯、非结构化文本分类以及聚类等内容;用生动的图示、大量的表格、简明的公式以及实用的Python 代码示例,阐释数据挖掘的知识和技能。 每章还给出了习题和练习,帮助读者巩固所学的知识。 本书采用在实践中学习的思路来组织内容。建议读者不是被动地阅读本书,而是通过课后习题和本书提供的Python 代码进行实践。此外,读者还应当积极参与到数据挖掘技术的编程实践中。 本书适合对数据挖掘、数据分析和推荐系统感兴趣的程序员及相关领域的从业者阅读参考;同时,本书也可以作为 一本轻松有趣的数据挖掘课程教学参考书。本书由一系列互为基础的小的知识点累积而成,学完本书以后,能够为理解 数据挖掘的各种技术打下坚实的基础。
Ron Zacharski是一名软件开发工程师,曾在威斯康辛大学获美术学士学位,之后还在明尼苏达大学获得了计算机科学博士学位。博士后期间,他在爱丁堡大学研究语言学。正是基于广博的学识,他不仅在新墨西哥州立大学的计算研究实验室工作,期间还接触过自然语言处理相关的项目,而该实验室曾被《连线》杂志评为机器翻译研究领域翘楚。除此之外,他还曾教授计算机科学、语言学、音乐等课程,是一名博学多才的科技达人。
王斌 博士,中国科学院信息工程研究所研究员,博士生导师,中国科学院大学兼职教授,研究方向为信息检索、自然语言处理与数据挖掘。主持国家973、863、国家自然科学基金、国际合作基金、部委及企业合作等课题近30项,发表学术论文130余篇,领导研制的多个系统上线使用,曾获国家科技进步二等奖和北京市科学技术二等奖各一项。现为中国中文信息学会理事、信息检索、社会媒体处理、语言与知识计算等多个专业委员会委员、《中文信息学报》编委、中国计算机学会高级会员及中文信息处理专业委员会委员。多次担任SIGIR、ACL、CIKM等会议的程序委员会委员。《信息检索导论》、《大数据:互联网大规模数据挖掘与分布式处理》、《机器学习实战》、《Mahout实战》译者。2006年起在中国科学院大学讲授《现代信息检索》研究生课程,累计选课人数已超过1500人。迄今培养博士、硕士研究生近40名。
第1章 数据挖掘简介及本书使用方法
欢迎来到21世纪
并不只是对象
TB级挖掘是现实不是科幻
本书体例
第2章 协同过滤-爱你所爱
如何寻找相似用户
曼哈顿距离
欧氏距离
N维下的思考
一般化
Python中数据表示方法及代码
计算曼哈顿距离的代码
用户的评级差异
皮尔逊相关系数
在继续之前稍微休息一下
*后一个公式-余弦相似度
相似度的选择
一些怪异的事情
k近邻
Python的一个推荐类
一个新数据集
第3章 协同过滤-隐式评级及基于物品的过滤
隐式评级
调整后的余弦相似度
Slope One算法
Slope One算法的粗略描述图
基于Python的实现
加权Slope One:推荐模块
MovieLens数据集
第4章 内容过滤及分类-基于物品属性的过滤
一个简单的例子
用Python实现
给出推荐的原因
一个取值范围的问题
归一化
改进的标准分数
归一化 vs. 不归一化
回到Pandora
体育项目的识别
Python编程
就是它了
汽车MPG数据
杂谈
第5章 分类的进一步探讨-算法评估及kNN
训练集和测试集
10折交叉验证的例子
混淆矩阵
一个编程的例子
Kappa统计量
近邻算法的改进
一个新数据集及挑战
更多数据、更好的算法以及一辆破公共汽车
第6章 概率及朴素贝叶斯-朴素贝叶斯
微软购物车
贝叶斯定理
为什么需要贝叶斯定理
i100 i500
用Python编程实现
共和党 vs. 民主党
数字
Python实现
这种做法会比近邻算法好吗
第7章 朴素贝叶斯及文本-非结构化文本分类
一个文本正负倾向性的自动判定系统
训练阶段
第8章 聚类-群组发现
k-means聚类
SSE或散度
小结
安然公司