搜索
高级检索
高级搜索
书       名 :
著       者 :
出  版  社 :
I  S  B  N:
出版时间 :
别怕,统计学其实很简单
0.00     定价 ¥ 45.00
浙江图书馆
  • ISBN:
    9787301308752
  • 作      者:
    徐苑琳,李倩星
  • 出 版 社 :
    北京大学出版社
  • 出版日期:
    2019-12-01
收藏
畅销推荐
编辑推荐
  入门级:本书是统计学入门级读物,只要读者会加、减、乘、除就能轻松掌握这门瞬间洞察因果的关键技能。
  思维级:本书涉及日常生活,以及零售业、电商业、餐饮业、金融业、服务业和博彩业等多个行业,有平易近人、随处可见的典型案例,也有难得一见、使用高新技术的案例;有规模宏大、涉及多方资源的案例,也有见微知著、仅需少量数据的案例;有成功的案例,也有失败的案例。通过多行业、多层次、多角度的分析,读者可了解到统计学是如何在各个行业中发挥作用的,看懂各行各业数据背后的真相,进而用统计学的思维,做出好决策。
展开
作者简介
  徐苑琳,四川大学亚洲基础设施建设与发展研究院副研究员,成都行政学院副教授,师从牛津大学圣艾德蒙学院院士AngHu,长期从事经济与科技发展研究,近年来在人民日报、科学管理研究、价格理论与实践等核心刊物上发表论文数十篇。
  李倩星,毕业于西南大学数学系,曾任美团用户服务体验平台高级数据运营,从应用角度关注统计学这门科学。对统计分析、数据挖掘有独到理解。
展开
内容介绍
  《别怕,统计学其实很简单》是一本优秀的统计学入门读物,首先介绍了统计学理论知识,激发读者对统计分析的兴趣,帮助读者完成理论准备。之后通过近30个商业案例深入地介绍了每种分析方法背后的原理、优缺点、适用范围等,使读者不仅知其然,更知其所以然。
  本书注重实际应用,帮助读者在短时间内了解统计学的知识体系,体会到统计学在各行各业中是如何发挥强大作用的;使读者具备一定的统计分析能力,并将这些知识应用到实际工作中。
展开
精彩书摘
第1章 为什么要懂点统计学

统计学是21世纪一门十分热门的学科,它最早应用于记录、分析古希腊城邦发展情况,之后吸收了许多经典数学理论,最终发展成为一门独立学科。但与数学不同,统计学起源于应用,最终也落地于应用。本章介绍了一些经典的统计学问题和统计学应用场景,最后概述了统计学的发展过程。





本章主要涉及的知识点

这些统计问题,你会做吗
统计学可以帮到你
到底什么是统计学


1.1 这些统计问题,你会做吗
离散型概率和连续型概率是统计学的基石。有许多经典的数学问题内含着统计知识。本节选择了3个典型问题,向读者详细介绍了概率是什么,以及如何在实际生活中应用它们。
1.1.1 三门问题
三门问题出自一档美国电视节目。在节目中,舞台上放着3扇关闭的门,其中一扇门后有一辆豪车,另外两扇门后分别是一头山羊。玩家选择一扇门后,主持人会在其余两扇门中打开一扇有山羊的门,并询问玩家是否更换选择。
请问玩家是否应该更换选择呢?不更换将有多大可能选中跑车?更换又有多大可能?
当主持人打开一扇有山羊的门后,留给玩家选择的是两扇关闭的门,似乎无论玩家是否更换选择,选中跑车的可能性都是1/2,但只需具备最基础的统计学知识,就可知道正确结果并非如此,当玩家不更换选择时,有2/3的概率选中跑车;反之,只有1/3的可能选中跑车。
不妨将3扇门分别标号,并假设跑车放在1号门后,此时玩家选择每扇门的可能性是均等的。当玩家选择1号门时,无论主持人打开哪扇门,玩家更换选择时会选中山羊,不更换选择时会选中跑车;当玩家选择2号门时,主持人只能打开3号门,则玩家更换选择时会选中跑车,不更换选择时会选中山羊;玩家选择3号门时的情形与选择2号门时的情形类似。
表1.1列出了所有的情形及它们发生的概率。
表1.1 三门问题情况罗列
玩家第一次选择 主持人打开 玩家是否更换 玩家第二次选择 玩家是否选中豪车 此情形发生概率
1号门 2号门 是 3号门 否 1/12
否 1号门 是 1/12
3号门 是 2号门 否 1/12
否 1号门 是 1/12
2号门 3号门 是 1号门 是 1/6
否 2号门 否 1/6
3号门 2号门 是 1号门 是 1/6
否 2号门 否 1/6

由于玩家选择1号门时,主持人既可打开2号门,又可打开3号门,并且打开这两扇门的概率相等,因此表1.1前4行的发生概率分别是1/12。而玩家选择2号门或3号门时,主持人只有一个选择,因此表1.1后4行的发生概率分别是1/6。
由表1.1即可汇总得出玩家是否更换选择与玩家是否选中豪车这两种情况的组合概率。结果如表1.2所示,玩家更换选择时选中豪车的概率是未选中豪车概率的两倍,即有2/3的概率选中豪车;未更换选择时选中豪车的概率是未选中豪车概率的一半,即有1/3的概率选中豪车。
表1.2 更换选择与选中豪车概率表
玩家选中豪车 玩家未选中豪车
玩家更换选择 1/3 1/6
玩家未更换选择 1/6 1/3
三门问题的另一个解题关键便是主持人并不是随机打开一扇门的,而是一定打开一扇有山羊的门。如果读者懂得条件概率和全概率公式,就不需要罗列上述复杂表格,仅列出几个公式,便可得到正确答案。这两个统计知识也可以应用到许多其他问题上,可参阅7.3.2小节获得更详细的内容。
1.1.2 “可靠”的医疗报告单
将统计数据罗列成表格有利于概览一个事件的全貌,从而解决实际问题。不过在罗列数据时,有一些常见的谬误却是不为大众所知的。以下是两个典型例子。
已知有一种罕见疾病的发病率是1%,这种疾病的检测方法的准确率是99%,小明被检测出罹患这种疾病,请问他真正患有这种病的概率是多少?
不妨假设做检查的一共有1万人,那么其中得病的人就有100人。9900个健康人去做检查时,将有99个人被检测出患病,而100个病人去做检查时会有一个人的检测结果是健康。
如表1.3所示,检测结果为患病的人总共有198人,其中有50%的人实际上是健康的,即小明实际上健康的概率是50%。与此类似,检测结果为健康的人总共有9802人,其中只有一人实际上患病,则对于检测结果为健康的人而言,检测错误的概率是0.01%。
表1.3 检测结果与真实情况统计表
检测结果为患病 检测结果为健康
真实情况为患病 99 1
真实情况为健康 99 9801

读者可能对这个结果感到惊异。但在实际情况中,大多数医学检测的准确率都不能达到100%。因此对于罕见病来说,往往需要进一步的精确检测才能得知是否真的生病了。知道了这一点,也就无须对发生在身边的误诊感到诧异了。
另一个例子则与数据分组合并有关。医药公司对一种新药进行了双盲实验,实验组和对照组分别招募到120名志愿者,均划分为儿童组、少年组、成年组和老年组4个组别。结果发现单独对照各个组别时,对照组的痊愈率高于实验组,可是观察总体水平时,实验组的痊愈率又高于对照组。
表1.4所示是双盲实验具体数据。
表1.4 双盲实验具体数据
实验组 对照组
参与人数 治愈人数 治愈率/% 参与人数 治愈人数 治愈率/%
儿童组 60 24 40 20 12 60
少年组 30 9 30 10 4 40
成年组 20 4 20 60 12 30
老年组 10 1 10 30 6 20
合计 120 38 31.7 120 34 28.3

如表1.4所示,统计数据与上述奇怪现象吻合。仔细观察表1.4,不难发现实验组中儿童和少年的数量比对照组多,成年人和老年人的数量又比对照组少。由于儿童和少年的自愈能力较强,因此在合计总数时,实验组的治愈率也就不足为奇了。这个实验明显违反了基本的设计原则,即各个组别的人数应对等这一条件,最终结果掩盖了真实情况,即这种新药不但对患者无效,甚至可能有害。
提示:在实际生活中,类似的统计疏漏、错误比比皆是,有时数据处理人出于某种目的会故意误导读者。例如,出现在广告中的统计数据往往会经过美化。有时真实数据有较多的“陷阱”,稍微粗心便会得出错误的结论。读者可参阅第2章和第3章的内容,了解更多有关统计数据的秘密。第4 ~ 8章则列举了许多化腐朽为神奇的优秀案例。
展开
目录

第1章 为什么要懂点统计学
1.1 这些统计问题,你会做吗 2
1.2 统计学可以帮到你 6
1.3 到底什么是统计学 10
第2章 描述统计基础
2.1 基本概念 14
2.2 数据预处理 17
2.3 绘制统计图表 21
第3章 推断统计基础
3.1 常见的几种概率分布 28
3.2 相关分析与回归分析基础 34
第4章 描述性统计分析
4.1 描述性统计分析基础 40
4.2 频数分布分析:用统计图解决伦敦霍乱 40
4.3 关注数据代表性:统计学家改良轰炸机 44
4.4 异常值分析:1号店提升营销精准率 48
4.5 对比分析:折线图指导购房者寻找合算房价 52
4.6 描述性统计分析概述:泰坦尼克号生还数据 55
第5章 相关分析与回归分析
5.1 相关分析与回归分析概述 60
5.2 矩阵分解:价值百万美元的Netflix推荐系统 61
5.3 一元线性回归:引发金融危机的风险价值模型 64
5.4 评分系统:星巴克选址借力大数据 68
5.5 相关与回归概述:航空乘客数量预测 71
第6章 关联分析与聚类分析
6.1 关联分析与聚类分析概述 78
6.2 购物篮分析:啤酒与尿布的经典案例 79
6.3 序列模式挖掘:Web访问模式帮助电商优化网站 83
6.4 快速聚类:通过分类降低客户退货率 87
6.5 层次聚类:为鸢尾花分类 91
6.6 关联与聚类综述:加州极客的聚类分析把妹法 95
第7章 决策树与模式识别
7.1 C4.5算法:电信客户流失预测 100
7.2 自组织神经网络:最优路径和旅行商问题 105
7.3 贝叶斯决策:神奇的谷歌智能翻译 110
7.4 支持向量机:应用广泛的手写识别与语音识别 114
7.5 判别分析:电信行业构建客户流失模型 119
7.6 模式识别综述:日趋成熟的信用评分模型 124
第8章 更多的数据挖掘算法
8.1 核密度估计法:警务大数据预测犯罪 130
8.2 Flu Trends:“谷歌流感趋势”帮助控制疫情 134
8.3 Apriori算法:透视美国国会投票模式 137
8.4 SVD简化数据:IBM软件自动生成新菜谱 142
8.5 文本分析:垃圾邮件过滤系统 146
8.6 AdaBoost元算法:侦测欺诈交易 150

展开
加入书架成功!
收藏图书成功!
我知道了(3)
发表书评
读者登录

温馨提示:请使用浙江图书馆的读者帐号和密码进行登录

点击获取验证码
登录