云书馆

产品特色

编辑推荐

人工智能的崛起得益于大数据的涌现、计算能力的提升与算法的突破，特别是深度学习。大数据是人工智能的燃料与驱动力，而数据科学又是大数据的核心研究内容与实现方法学。

《数据科学手册》包含3部分内容：第Ⅰ部分是必须掌握的基础素材（如数据科学路线图、编程语言、数据变换与数据清理、数据可视化与度量标准、机器学习等）；第Ⅱ部分是仍需要知道的事情（如数据聚类和降维、回归、数据编码与文件格式、大数据、数据库、软件工程*佳实践、自然语言处理、时间序列分析等）；第Ⅲ部分是专业或高级主题（如计算机内存和数据结构、*大似然估计和*优化、高级分类器、随机建模等）。

展开

作者简介

展开

内容介绍

《数据科学手册》对数据科学进行了整体性介绍，涵盖了掌握该学科所需的分析、编程和业务技能等方方面面。找到一个的数据科学家就像是寻找一只独角兽：因为其所需要的技术及技能组合很难在一个人身上兼备。另外，良好的数据科学素养不仅仅是对所训练技能的综合应用，还需要能够灵活考虑所有这些领域，并理解它们之间的联系。《数据科学手册》提供了数据科学的速成课程，将所有必要的技能结合到一个统一的学科体系中。与许多数据分析的书籍不同，《数据科学手册》涵盖了关键的计算机科学和软件工程相关内容，因为它们在数据科学家的日常工作中发挥了极其重要的作用。《数据科学手册》还介绍了经典的机器学习算法，从这些算法的数学基础到实际应用均有描述。《数据科学手册》对可视强调其在数据科学中的核心位置。引入古典统计学的目的是帮助读者用批判性思维对数据进行解释，并指出常见的陷阱。对分析结果的清化工具进行了综述，并晰交流（这也许是数据科学技术中*为薄弱的一个环节）有专门的章节进行讲解，本书对所有涉及的主题均是在解决实际问题的背景下加以解释。

展开

精彩书评

展开

精彩书摘

展开

译者序

原书前言

第1章　引言：成为独角兽 1

第Ⅰ部分　必须掌握的基础素材

第2章　数据科学路线图 6

第3章　编程语言 13

第4章　数据预处理：字符串操作、正则表达式和数据清理 36

第5章　可视化与简单度量 48

第6章　机器学习概要 70

第7章　插曲：特征提取思路 74

第8章　机器学习分类 77

第9章　技术交流与文档化 96

第Ⅱ部分　仍需要知道的事情

第10章　无监督学习：聚类与降维 108

10.1　维数灾难 108

10.2　实例：“特征脸”降维 110

10.3　主成分分析与因子分析 112

10.4　Skree图与维度的理解 113

10.5　因子分析 114

10.6　PCA的局限性 114

10.7　聚类 115

10.7.1　聚类簇的实际评估 115

10.7.2　k均值聚类 116

10.7.3　高斯混合模型 117

10.7.4　合成聚类 118

10.7.5　聚类质量评价 118

10.7.6　轮廓分数 118

10.7.7　兰德指数与调整兰德指数 120

10.7.8　互信息 120

10.8　延伸阅读 121

10.9　术语 121

第11章　回归 122

11.1　实例：预测糖尿病进展 122

11.2　最小二乘法 125

11.3　非线性曲线拟合 126

11.4　拟合度：R2和相关度 127

11.5　残差相关性 128

11.6　线性回归 128

11.7　LASSO回归与特征选择 130

11.8　延伸阅读 131

11.9　术语 131

第12章　数据编码与文件格式 132

12.1　典型的文件格式类别 132

12.1.1　文本文件 132

12.1.2　密集数组 133

12.1.3　程序相关的数据格式 133

12.1.4　数据压缩和数据存档 133

12.2　CSV文件 133

12.3　JSON文件 134

12.4　XML文件 136

12.5　HTML文件 138

12.6　Tar文件 139

12.7　GZip文件 140

12.8　Zip文件 140

12.9　图像文件：栅格化、矢量化及压缩 141

12.10　归根到底都是字节 142

12.11　整型数 142

12.12　浮点数 143

12.13　文本数据 144

12.14　延伸阅读 146

12.15 　术语 146

第13章　大数据 147

13.1　什么是大数据 147

13.2　Hadoop：文件系统与处理器 148

13.3　使用HDFS 149

13.4　PySpark脚本实例 150

13.5　Spark概述 151

13.6　Spark操作 152

13.7　运行PySpark的两种方式 154

13.8　Spark配置 154

13.9　底层的细节 155

13.10　Spark提示与技巧 156

13.11　 MapReduce范例 157

13.12　性能考量 158

13.13　延伸阅读 159

13.14　术语 160

第14章　数据库 161

14.1　关系数据库及MySQL 162

14.1.1　基本查询和分组 162

14.1.2　连接 164

14.1.3　嵌套查询 165

14.1.4　运行MySQL并管理数据库 166

14.2　键-值存储 167

14.3　宽列存储 167

14.4　文档存储 168

14.4.1　MongoDB 168

14.5　延伸阅读 170

14.6　术语 170

第15章　软件工程最佳实践 172

15.1　编码风格 172

15.2　数据科学家的版本控制和Git 174

15.3　代码测试 176

15.3.1　单元测试 176

15.3.2　集成测试 178

15.4　测试驱动的开发 178

15.5　敏捷方法 179

15.6　延伸阅读 179

15.7　术语 179

第16章　自然语言处理 181

16.1　是否真正需要NLP 181

16.2　两种流派的对垒：语言学与统计学 181

16.3　实例：股市文章的论点分析 182

16.4　软件和数据库 184

16.5　词语切分 184

16.6　核心概念：词袋 184

16.7　单词加权：TF-IDF 185

16.8　n-gram 186

16.9　停用词 186

16.10　词形还原与词干提取 187

16.11　同义词 187

16.12　词性标注 188

16.13　常见问题 188

16.13.1　搜索 188

16.13.2　情感分析 189

16.13.3　实体识别与主题建模 189

16.14　高级NLP：语法树、知识以及理解 190

16.15　延伸阅读 191

16.16　术语 191

第17章　时间序列分析 192

17.1　实例：预测维基百科页面的访问量 192

17.2　典型的工作流 196

17.3　时间序列与时间戳事件 196

17.4　插值的重采样 196

17.5　信号平滑 199

17.6　对数变换及其他变换 199

17.7　趋势和周期性 199

17.8　窗口化 200

17.9　简单特征的头脑风暴 201

17.10　更好的特征：向量形式的时间序列 201

17.11　傅里叶分析：有时候非常有效 202

17.12　上下文中的时间序列：全套特征 204

17.13　延伸阅读 205

17.14　术语 205

第18章　概率 206

18.1　抛硬币：伯努利随机变量 206

18.2　掷飞镖：均匀随机变量 207

18.3　均匀分布和伪随机数 208

18.4　非离散型、非连续型随机变量 209

18.5　记号、期望和标准偏差 210

18.6　独立概率、边际概率和条件概率 211

18.7 　重尾的理解 212

18.8　二项分布 214

18.9　泊松分布 214

18.10　正态分布 215

18.11　多元高斯分布 216

18.12　指数分布 217

18.13　对数正态分布 218

18.14　熵 218

18.15　延伸阅读 220

18.16　术语 220

第19章　统计学 222

19.1　统计学透视 222

19.2　贝叶斯与频率论：使用上的权衡及不同学派 223

19.3　假设检验：关键思想和范例 223

19.4　多重假设检验 225

19.5　参数估计 226

19.6　假设检验：t检验 227

19.7　置信区间 229

19.8　贝叶斯统计学 230

19.9　朴素贝叶斯统计学 231

19.10　贝叶斯网络 232

19.11　先验概率选择：最大熵或领域知识 232

19.12　延伸阅读 233

19.13　术语 233

第20章　编程语言概念 235

20.1　编程范式 235

20.1.1　命令式 235

20.1.2　函数式 236

20.1.3　面向对象 239

20.2　编译与解释 242

20.3　类型系统 244

20.3.1　静态类型与动态类型 244

20.3.2　强类型与弱类型 244

20.4　延伸阅读 245

20.5　术语 245

第21章　性能和计算机内存 247

21.1　示例脚本 247

21.2　算法性能与Big-O符号 249

21.3　一些经典问题：排序列表与二分查找 250

21.4　摊销性能与平均性能 253

21.5　两个原则：减小开销和管理内存 255

21.6　性能技巧：在适用的情况下使用数字化库 256

21.7　性能技巧：删除不需要的大型结构 257

21.8　性能技巧：尽可能使用内置函数 257

21.9　性能技巧：避免不必要的函数调用 258

21.10　性能技巧：避免创建大型新对象 258

21.11　延伸阅读 259

21.12　术语 259

第Ⅲ部分　专业或高级主题

第22章　计算机内存和数据结构 262

22.1　虚拟内存、堆栈和堆结构 262

22.2　C程序实例 262

22.3　内存数据类型和数组 263

22.4　结构 264

22.5　指针、堆栈和堆 265

22.6　关键数据结构 269

22.6.1　字符串 269

22.6.2　可调数组 269

22.6.3　哈希表 271

22.6.4　链表 272

22.6.5　二叉搜索树 273

22.7　延伸阅读 274

22.8　术语 274

第23章　最大似然估计和最优化 276

23.1　最大似然估计 276

23.2　一个简单实例：直线拟合 277

23.3　另一个例子：逻辑回归 278

23.4　最优化 279

23.5　梯度下降和凸优化 280

23.6　凸优化 283

23.7　随机梯度下降 284

23.8　延伸阅读 284

23.9　术语 284

第24章　高级分类器 286

24.1　函数库注解 286

24.2　基础深度学习 287

24.3　卷积神经网络 289

24.4　不同类型的层以及张量到底是什么 290

24.5　实例：MNIST手写数据集 291

24.6　递归神经网络 293

24.7　贝叶斯网络 294

24.8　训练和预测 295

24.9　马尔可夫链蒙特卡洛理论 296

24.10　PyMC实例 297

24.11　延伸阅读 299

24.12　术语 299

第25章　随机建模 300

25.1　马尔可夫链 300

25.2　两类马尔可夫链、两类问题 302

25.3　马尔可夫链蒙特卡洛 303

25.4　隐马尔可夫模型和Viterbi算法 304

25.5　维特比算法 305

25.6　随机游走 307

25.7　布朗运动 308

25.8　ARIMA模型 308

25.9　连续时间马尔可夫过程 309

25.10　泊松过程 310

25.11　延伸阅读 310

25.12　术语 311

告别语：　数据科学家的未来 312

展开