云书馆

编辑推荐

讲解每个算法的原理时，尽可能避免使用晦涩难懂的统计术语或模型公式。

在每个算法的后面演示一个实用的案例，方便大家理解和掌握每种算法的使用。

力求解决工作中的数据挖掘典型业务问题。

展开

作者简介

方小敏，资深机器学习工程师；中山大学数字治理研究中心技术顾问；曾服务于腾讯等知名互联网企业，熟练掌握Python、R、Spark、Hive、TensorFlow等工具进行机器学习。《谁说菜鸟不会数据分析（Python篇）》作者。

展开

内容介绍

从解决工作实际问题出发，提炼总结工作中Python 常用的数据处理、数据挖掘实战方法与技巧。本书通俗易懂地介绍数据挖掘过程中可能用到的回归模型、分类模型、聚类、关联、时间序列分析等技术。在不影响学习理解的前提下，尽可能地避免使用晦涩难懂的Python 编程、统计术语或模型公式。本书定位是带领Python 数据分析初学者入门，并能解决学习、工作中大部分的问题或需求。入门后如还需要进一步进阶学习，可自行扩展阅读相关书籍或资料，学习是永无止境的，正所谓"师傅领进门，修行在个人”。

展开

精彩书评

整个社会步入大数据时代后，数据分析能力逐步成为每一个组织、个体需要的重要能力构成，也是日常工作、学习中基本的能力要求。

作者方小敏从业多年，在多家知名互联网公司担任资深数据挖掘工程师，在多个政府、企业和高校开展数据分析的系列讲座，对该领域有系统的认知和实操经验，能从初学者角度出发来对知识点进行清晰的梳理和讲解，为掌握和应用数据分析提供有效的方向和路径。

这本书涵盖基于Python数据挖掘的理论基础、回归分析、分类、特征工程、聚类、关联分析等，思路清晰、数据和案例丰富，是初学者学习数据挖掘的重要工具书。

郑跃平博士，中山大学副教授

展开

第１章数据挖掘基础／1
1．1 数据挖掘是什么／1
1．1．1 数据挖掘算法的类型／2
1．1．2 数据挖掘需要的技能／4
1．1．3 数据挖掘的常见误区／6
1．2 数据挖掘的常见问题／8
1．2．1 预测问题／9
1．2．2 分类问题／9
1．2．3 聚类问题／11
1．2．4 关联问题／12
1．3 数据挖掘的标准流程／13
1．3．1 商业理解／14
1．3．2 数据理解／14
1．3．3 数据准备／14
1．3．4 模型构建／15
1．3．5 模型评估／15
1．3．6 模型部署／15
1．4 数据分析和数据挖掘的区别／16
1．4．1 数据分析／16
1．4．2 数据挖掘／17

第２章回归模型／18
2．1 回归模型简介／18
2．2 相关分析／20
2．2．1 依存关系／20
2．2．2 相关系数的计算／21
2．2．3 相关系数的方向与大小／22
2．2．4 居民购物习惯相关分析案例／23
2．3 简单线性回归分析／25
2．3．1 线性回归方程解读／25
2．3．2 使用最小二乘法求解回归方程／26
2．3．3 使用广告投放费用预测销售额案例／28
2．4 多重线性回归分析／33
2．4．1 使用最小二乘法求解多重线性回归方程／33
2．4．2 使用广告投放费用与客流量预测销售额案例／36
2．5 一元非线性回归／39
2．5．1 一元非线性回归模型／39
2．5．2 一元非线性回归模型求解／40
2．5．3 使用上线天数预测活跃用户数案例／41

第３章分类模型／48
3．1 分类模型基础／48
3．1．1 分类模型的建模五步骤／49
3．1．2 分类模型评估指标／50
3．1．3 K折交叉验证／53
3．2 KNN模型／54
3．2．1 KNN模型原理／54
3．2．2 使用商户数据预测是否续约案例／55
3．3 贝叶斯分类／64
3．3．1 贝叶斯分类的核心概念／65
3．3．2 朴素贝叶斯分类／67
3．3．3 朴素贝叶斯分类算法在离散型特征上的求解／68
3．3．4 朴素贝叶斯分类算法在连续型特征上的求解／71
3．3．5 使用议员在议案上的投票记录预测其所属党派案例／83
3．3．6 根据商户数据预测其是否续约案例／85
3．3．7 根据新闻文本预测其所属分类案例／86
3．4 决策树／89
3．4．1 决策树分类／89
3．4．2 决策树分类算法原理／91
3．4．3 使用高中生基本信息预测其是否计划升学案例／93
3．4．4 案例解读／102
3．5 随机森林／104
3．5．1 随机森林的特点／104
3．5．2 网格搜索／106
3．5．3 使用随机森林算法提升决策树算法效果案例／107
3．6 支持向量机／111
3．6．1 支持向量机的核心原理／111
3．6．2 根据葡萄酒成分数据预测其分类案例／116
3．7 逻辑回归／118
3．7．1 逻辑回归的核心概念／118
3．7．2 逻辑回归的数学推导／119
3．7．3 使用住户信息预测房屋是否屋主所有案例／120

第４章特征工程／124
4．1 描述性统计分析／125
4．2 数据标准化／127
4．2．1 Min-Max标准化／128
4．2．2 Z-Score 标准化／129
4．2．3 Normalizer归一化／131
4．3 数据变换／132
4．3．1 二值化／132
4．3．2 分桶／135
4．3．3 幂变换／138
4．4 缺失值处理／139
4．4．1 删除缺失值所在的行／140
4．4．2 均值/众数/中值填充／141
4．4．3 模型填充／142
4．5 降维／143
4．5．1 主成分分析／143
4．5．2 因子分析／154

第５章聚类算法／160
5．1 K均值算法／161
5．1．1 K均值算法的核心概念／161
5．1．2 电信套餐制定案例／164
5．2 DBSCAN算法／169
5．2．1 DBSCAN算法核心概念／170
5．2．2 用户常活动区域挖掘案例／173
5．3 层次聚类算法／175
5．3．1 演示：聚类层次的计算过程／175
5．3．2 基于运营商基站信息挖掘商圈案例／178

第６章关联算法／184
6．1 关联规则／185
6．1．1 关联规则的核心概念／186
6．1．2 超市关联规则挖掘案例／188
6．1．3 超市关联规则解读／192
6．2 协同过滤／192
6．2．1 协同过滤算法的实现／193
6．2．2 安装scikit-surprise模块／196
6．2．3 基于电影数据的协同过滤案例／197
6．3 奇异值分解／201

第７章时间序列／206
7．1 时间序列分解／206
7．1．1 非季节性时间序列分解／207
7．1．2 季节性时间序列／211
7．2 序列预测／214
7．2．1 把不平稳的时间序列转换成平稳的时间序列／214
7．2．2 自回归模型／219
7．2．3 移动平均模型／220
7．2．4 自回归移动平均模型／221

第８章模型持久化／226
8．1 保存模型／226
8．2 恢复模型／228
8．3 管道模型／229

展开