云书馆

作者简介

作者简介：

罗恩·科哈维（Ron Kohavi）是爱彼迎的副总裁和技术院士，曾任微软的技术研究员和公司副总裁。在加入微软之前，他是亚马逊的数据挖掘和个性化推荐总监。他拥有斯坦福大学计算机科学博士学位，论文被引用超过40 000次，其中有3篇位列计算机科学领域引用最多的1 000篇论文榜。

黛安·唐（Diane Tang）是谷歌院士，大规模数据分析和基础设施、线上对照实验及广告系统方面的专家。她拥有哈佛大学的文学学士学位和斯坦福大学的硕士及博士学位，在移动网络、信息可视化、实验方法、数据基础设施、数据挖掘和大数据方面拥有专利和出版物。

许亚（Ya Xu）是领英数据科学与实验平台负责人，曾撰写了多篇关于实验的论文，并经常在顶级会议和大学演讲。她曾在微软工作，拥有斯坦福大学的统计学博士学位。

译者简介：

韩玮：爱彼迎数据科学资深专家，专注于搜索算法和实验领域，之前在沃尔玛实验室负责相关工作。她于宾夕法尼亚大学获得应用数学博士学位和统计学硕士学位，本科毕业于中国科学技术大学数学系。

胡鹃娟：现任爱彼迎数据科学家，拥有四年的A/B 实验分析经验。此前在领英任资深数据科学家。于加州大学戴维斯分校获得统计学硕士学位、香港中文大学获得金融硕士学位，本科毕业于中国科学技术大学00 班统计专业。

段玮韬：领英资深应用研究专家，现负责领英实验科学团队。他与许亚一起在实验领域紧密合作长达5 年之久，书中的很多材料和结论都提炼自他和许亚的工作经验。

胡泽浩：优步数据科学经理，优步人工智能和增长平台两个数据科学团队的负责人，拥有五年用数据及实验驱动产品开发的经验。于宾夕法尼亚大学获得经济学博士学位，本科毕业于香港大学经济系。

廖一正：爱彼迎资深数据科学家，负责爱彼迎中国区搜索引擎算法开发，领导着实验分析委员会。于斯坦福大学获得土木与环境工程博士学位，研究领域为应用机器学习和统计。

王璐：雪花（Snowflake）计算数据科学家，拥有将近七年的实验设计与分析、统计建模以及产品分析经验。曾任爱彼迎数据科学家以及吉利德科学生物统计师。于加州大学洛杉矶分校获得生物统计博士学位，本科毕业于浙江大学生物信息系。

赵振宇：腾讯数据科学总监。此前先后在雅虎和优步负责实验系统、因果推断、机器学习应用研究和平台建设，以及开源项目研发工作。于美国西北大学获得统计学博士学位，本科毕业于中国科学技术大学。

钟婧：苹果公司Siri 部门资深数据科学家，此前先后在微软必应部门及脸书公司从事机器学习建模和A/B 实验、用户和产品数据分析、产品战略分析等方向的研究工作。于密歇根大学获得博士学位，本科毕业于清华大学电子工程系。

展开

内容介绍

本书基于近些年实验领域的研究成果和实践经验，对实验的方法和应用做了很好的全景式描述，是一本兼顾系统性的方法论和基于实战的经验法则的书籍。根据微软、亚马逊、谷歌和领英每年运行的两万多个对照实验，作者以示例和建议的方式向学生和业内人士分享了自己的实践经验，指出了需要避免的陷阱，并深入探讨了一些进阶专题，可以为希望改善自身及机构数据驱动决策方式的从业者提供参考。

全书分为五个部分：第I部分由四章组成。第1章概述运行线上对照实验的好处，并介绍实验相关术语。第2 章用一个例子剖析运行实验的全过程。第3 章描述常见的陷阱以及如何建立实验的可信赖度。第4 章概述如何搭建实验平台并规模化线上实验。第II部分的五章内容介绍实验的基础原理，比如机构指标。我们推荐所有人阅读这一部分，尤其是领导者和高管。第III部分的两章内容介绍线上对照实验的补充技法，可以帮助管理层、数据科学家、工程师、分析师、产品经理等进行资源和时间的投资。第IV部分专注于实验平台的搭建，面向工程师群体。最后，第V部分深入讨论进阶的实验分析专题，面向数据科学家。

展开

精彩书评

“精益方法的核心是科学的方法：创建假设、运行实验、收集数据、提取洞察以及对假设进行验证或修改。A/B测试是创建可验证且可重复的实验的黄金标准，而本书正是这方面的标杆书籍。”

—Steve Blank，斯坦福大学兼职教授，硅谷创业教父，

The Startup Owner’s Manual以及The Four Steps to the Epiphany的作者

“对于希望通过线上对照实验来优化产品功能和提高项目效率或营收的管理人员、领导者、研究人员或工程师，本书是很好的资源。我十分了解Kohavi的工作对微软和必应产生的影响。很高兴看到这些知识现在可以分享给更广泛的读者。”

—沈向洋，微软人工智能研究部门前执行副总裁

“一本既严谨又通俗易懂的好书。读者可以学习到如何将革新了互联网产品开发的可信赖的对照实验引入自己的机构。”

—Adam D’Angelo，Quora联合创始人兼首席执行官，脸书首任首席技术官

“本书很好地概述了几家公司如何通过线上实验和A/B测试来改善其产品。经验丰富的Kohavi、Tang和Xu在本书中分享了出色的建议。本书提供了许多现实世界的实用示例，以及作者多年积累的关于大规模应用这些技术的经验和教训。”

—Jeff Dean，谷歌高级院士兼谷歌搜索高级副总裁

“你是否希望你的组织持续做出更好的决策？本书是关于如何在数字时代基于数据做决策的新‘圣经’。阅读本书就像身处亚马逊、谷歌、领英或微软的内部会议一样。作者首次披露了成功的公司如何做决策。除了普通商业书籍的忠告和逸事之外，本书还展示了该做什么以及如何做好。这是数字世界中关于决策的手册，其中有专门针对业务主管、工程师和数据分析师的内容。”

—Scott Cook，Intuit联合创始人兼执行委员会主席

“线上对照实验是十分强大的工具，理解它的工作原理、优势以及如何优化它，可以使专家和更广泛的读者受益。本书是罕见的技术标杆，有机地将良好的阅读体验和重要课题的探讨结合起来。”

—John P. A. Ioannidis，斯坦福大学医学、

健康研究与政策、生物医学数据科学和统计学教授

“哪个线上选项会更好？我们经常需要做出这样的选择。要确定哪种方法更有效，我们需要严格的对照实验，也就是A/B测试。微软、谷歌和领英的专家撰写的这本精彩且生动的书介绍了A/B测试的理论和Best Practices，是所有从事线上相关业务的人的必读书籍！”

—Gregory Piatetsky-Shapiro博士，KDnuggets总裁，

SIGKDD联合创始人，数据科学与分析领域“LinkedIn Top Voice”得主

“Ron Kohavi、Diane Tang和Ya Xu是线上实验方面的头部专家。多年来我一直在使用他们的工作成果，很高兴他们现在联手编写了这本终极指南。我向我的所有学生以及所有参与线上产品和服务的人推荐这本书。”

—Erik Brynjolfsson，麻省理工学院教授，The Second Machine Age的合著者

“如果没有线上对照实验，靠软件支撑的现代商业就会缺乏竞争力。本书由该领域经验丰富的三位先驱撰写，书中介绍了该领域的基本原理，并通过令人信服的示例对其进行了说明，同时深入探讨并提供了大量实用建议。这是一本必读书籍！”

—Foster Provost，纽约大学斯特恩商学院教授，

畅销书Data Science for Business的合著者

“在过去的20年里，科技行业也逐渐认识到对照实验是理解复杂现象和解决极具挑战性问题的理想工具，这一点科学家们早在几个世纪以前就了解了。设计对照实验、大规模运用它们并解释其结果的能力是现代高科技企业经营的基础。本书作者设计并实现了多个世界上非常强大的实验平台。阅读本书是从他们的经验中学习如何使用这些工具和技术的绝好机会。”

—Kevin Scott，微软执行副总裁兼首席技术官

“线上实验推动了亚马逊、微软、领英以及其他领先的数字化企业的成功。这本实用的图书为读者了解这些公司数十年的实验经验提供了难得的机会。本书应该放在每个数据科学家、软件工程师和产品经理的书架上。”

—Stefan Thomke，哈佛商学院William Barcley Harding教授，

Experimentation Works: The Surprising Power of Business Experiments的作者

“线上业务成功的秘诀在于实验，这已不再是秘密。三位大师在本书中详解了A/B测试的基本组成元素，你可以据此不断改进你的线上服务。”

—Hal Varian，谷歌首席经济学家，

Intermediate Microeconomics: A Modern Approach的作者

“实验是面向线上产品和服务的最佳工具之一。本书包含了从微软、谷歌和领英的多年成功测试中获得的实践知识。通过真实的示例、陷阱及其特点、解决方案来分享洞察和Best Practices。我强烈推荐这本书！”

—Preston McAfee，微软前首席经济学家兼副总裁

“实验是数字策略的未来，这本书将成为实验领域的‘圣经’。Kohavi、Tang和Xu是当今实验领域著名的三位专家，他们的书提供了数字实验的实用路线图，非常有用。本书将他们数十年来在微软、亚马逊、谷歌和领英进行的案例研究整理成通俗易懂、有深度且清晰的实用方法，任何数字业务的经理都应阅读这本书。”

—Sinan Aral，麻省理工学院David Austin管理学教授，The Hype Machine的作者

“对于任何严肃的实验从业者而言，这本书都是必不可少的。它非常实用，同时又很深入，这是我之前从未见过的。阅读它能让你感觉自己拥有了超能力。从统计的细微差别到评估结果，再到衡量长期影响，这本书全都涵盖了。必读！”

—Peep Laja，Top转化率专家，CXL的创始人兼技术负责人

“线上实验对于改变微软的文化至关重要。当Satya谈论‘成长

心态’时，实验是尝试新想法并从中学习的Best方法。学习如何快速迭代对照实验增强了必应的盈利能力，并通过Office、Windows和Azure业务线迅速在微软推广。”

—Eric Boyd，微软人工智能平台企业副总裁

“作为一名企业家、科学家和高管，我艰难地学到：一盎司的数据顶得上一磅的直觉。但是如何获得好的数据？本书将作者在亚马逊、谷歌、领英和微软的数十年经验汇编成易于学习且井井有条的指南。这本书是线上实验的‘圣经’。”

—Oren Etzioni，Allen Institude of AI的首席执行官兼华盛顿大学计算机科学教授

“互联网公司以前所未有的规模、速度和复杂度运行着实验。本书作者在这些发展中发挥了关键作用，能够从他们的经验中学习，读者很幸运。”

—Dean Eckles，麻省理工学院通信与技术专业KDD职业发展教授，脸书前科学家

“本书为一个关键但未受到足够重视的领域提供了丰富的参考资源。每章的实例研究展示了成功业务的内在运作和经验。重视开发和优化‘综合评估标准’是特别重要的一课。”

—Jeremy Howard，奇点大学，fast.ai的创始人，Kaggle的前总裁兼首席科学家

“关于A/B测试的指南有很多，但很少有像本书这么正统的。我已经关注Ronny Kohavi 18年了，发现他的建议聚焦于实践，经过了经验的‘打磨’并在实际环境中进行过检验。Diane Tang和Ya Xu的加入使得理解的广度变得无与伦比。我建议你将这本著作与其他任何书进行比较—当然是以对照方式。”

—Jim Sterne，市场分析峰会创始人，数据分析协会名誉理事

“这是一本关于运行线上实验的极其有用的方法书。书中结合了复杂的分析方法、简洁的论述以及来之不易的实践经验。”

—Jim Manzi，Foundry.ai的创始人，

Applied Predictive Techonologies的创始人和前首席执行官兼董事长，

Uncontrolled: The Surprising Payoff of Trial-and-Error for Business,

Politics, and Society的作者

“每当实验被设计用于新领域的时候，如农业、化学、医药以及现在的电子商务等，都可以帮助该领域取得进步。本书由三位业内领军专家所著，涵盖了丰富的实践建议，以及如何和为何运行线上实验并避开陷阱。实验是有成本的，不懂得哪些方法可行会增加更多的成本。”

—Art Owen，斯坦福大学统计系教授

“这是一本商业主管和运营经理的必读书。就像运营、金融、审计和战略组成了现今商务的基础一样，在这个人工智能的时代，理解和实践线上对照实验将成为必备的知识点。Kohavi、Tang和Xu在这本书里罗列了这个知识领域切实可行的核心内容。”

—Karim R. Lakhani，哈佛大学科技创新实验室教授及总监，

Mozilla Corp.董事会成员

“真正的‘数据驱动’型组织深知仅有数据分析是不够的，还必须致力于实验。这本书是影响力很大的实验设计的手册和宣言，简明易懂且出类拔萃。我认为本书的实用主义很值得借鉴。The key is，本书阐明了企业文化是与技术实力旗鼓相当的重要成功因素。”

—Michael Schrage，麻省理工学院数字经济项目科研院士，

The Innovator’s Hypothesis: How Cheap Experiments

Are Worth More than Good Ideas的作者

“这本关于实验的重要图书融汇了三个来自世界一线科技公司的优秀领导者的智慧。如果你是试图在你的公司实践数据驱动文化的软件工程师、数据科学家或者产品经理，那么这是为你准备的优秀且实用的书。”

—Daniel Tunkelang，Endeca首席科学家和领英前数据科学与工程总监

“随着每一个领域的数字化和数据驱动化，执行并利用线上对照实验成了必备技能。Kohavi、Tang与Xu为数据从业者和公司主管提供了一个全面且研究充分的必读指导。”

—Evangelos Simoudis，Synapse Partners联合创始人与执行总裁

The Big Data Opportunity in Our Driverless Future的作者

“在这本行业内目前Most有战略意义的书中，三位作者提供了他们十余年艰苦奋战的实验经验。”

—Colin McFarland， Netflix实验平台总监

“这本A/B测试的实用指南将实验界三位领军专家的经验融合成了通俗易懂并易于实践的模块。每章都带你梳理运行实验时最重要的考虑因素—从实验指标的选择到机构的经验传承的重要性。如果你正在寻找一个可以平衡理论与实践的实验导师，那么这本书绝对适合你。”

—Dylan Lewis，Intuit实验平台负责人

“唯一比没有实验更糟糕的是具有误导性的实验，因为它会给你带来错误的自信！本书根据一些世界上走在运行实验一线的机构的见解，详细介绍了实验的相关技术。不管你以任何身份参与线上实验，请立即阅读本书以避免错误并获得对结果的信心。”

—Chris Goward， You Should Test That?！的作者，

WiderFunnel的创始人兼首席执行官

“这是一本现象级的图书。作者汲取了丰富的经验，并提供了既易于阅读又全面详尽的参考资料。强烈建议任何想运行严格的线上实验的人阅读。”

—Pete Koomen， Optimizely的联合创始人

“作者们是线上实验的先驱。他们建立的实验平台以及在平台上运行的实验对许多互联网大品牌是一种革新。他们的研究和演讲启发了整个行业。这是一本业界期待已久的权威且实用的图书。”

—Adil Aijaz，Split Software的联合创始人兼首席执行官

“A/B测试以及数据驱动的决策是互联网与大数据时代基础方法论的重要基石。本书总结了三位互联网行业领导者多年来在实验领域的经验心得，值得每一个想要了解如何用数据驱动决策、加速创新的从业者阅读。”

—连乔，快手副总裁

“互联网时代的产品日新月异，做产品需要有好的增长思维，探索并测试不同的想法来增长用户规模、收入或利润。在线实验是互联网产品测试新想法，并基于数据做科学决策的重要方法。在实践中，我们需要追求大规模、高效率、低成本、低风险、科学做实验的系统能力，但建设这样的实验能力往往需要多管齐下，包括平台、方法论、数据、流程、文化等多方面的建设，其中的挑战和复杂度不容小觑。本书从多个层面，结合近些年的理论研究和硅谷大公司的实战经验，为实验能力的建设和应用提供一些思路和指导，是在线实验领域一本具有标杆意义的参考书。”

—蒋锡茸，腾讯副总经理

“A/B实验是数据驱动的核心引擎，今天互联网的大部分业务都非常习惯和依赖于A/B实验进行产品和运营决策，很多公司每年进行几万次到几十万次的实验，这些决策直接关系到产品和业务的成败。因此，如何做好A/B实验是数据科学的重要问题。本书的作者都是实验行业的领导者，译者同样是在头部互联网企业和实验行业有丰富经验和影响力的数据科学家。非常推荐这本书给数据科学的专业从业者作为必读书籍。对于每个希望能够深刻理解A/B实验的朋友，本书同样值得一读。”

—郭飞，腾讯PCG公共数据科学部负责人

“本书是A/B实验领域非常重要的一本书。它的重要性不仅体现在权威的理论叙述，还因为它集A/B实验领域三位领军人物的多年最佳实践于一体。真正的数据驱动的标志之一是通过因果推断对增量价值进行衡量。A/B实验是因果推断的黄金准则，可信的A/B实验是可信的因果推断的前提。任何相信数据驱动的精细化运营的人都应该仔细阅读本书。”

—谢辉志，阿里巴巴数据科学总监

“在互联网经济高速发展的今天，Ron Kohavi、Diane Tang和Ya Xu的书非常及时。它是一本业界科学家写给从业者的书，叙述严谨且非常实用。每个需要运行线上算法实验的团队，不管是算法工程师还是领导者，都应把此书作为自己文献库的必备参考书籍”。

—秦志伟（Tony），滴滴AI Labs首席研究员

“由于互联网时代的用户需求和市场环境快速变化，企业必须采用实验迭代和数据驱动的决策体系和创新模式。可信赖的对照实验（A/B测试）是其中Most核心的一步，也是领英、脸书、谷歌、微软等领军企业不断创新和增长的秘密和源泉。Ron、Diane和Ya是业界领军的实验领导者，也是出色的教育者。我曾多次听他们分享并与之交流讨论实验迭代，很高兴他们将最前沿的的经验和研究总结成书。他们结合自己在硅谷一线企业设计实验、驱动产品和改进业务的体会，总结出一套方法、工具和实战案例，这值得所有数据科学家、产品经理和管理者学习和借鉴。”

—孙天澍，南加州大学Robert Dockson讲席教授

展开

本书赞誉

译者序

前言——如何阅读本书

致谢

第一部分　线上对照实验概览

第1章　概述和写作动机003

1.1　线上对照实验的术语005

1.2　为什么进行实验？相关性、因果关系和可信赖度008

1.3　有效运行对照实验的必要元素010

1.4　宗旨011

1.5　随时间推移的改进013

1.6　有趣的线上对照实验实例015

1.7　战略、战术及它们和实验的关系020

1.8　补充阅读 023

第2章　运行和分析实验——一个全程剖析的案例025

2.1　设立实验025

2.2　假设检验：确立统计显著性028

2.3　设计实验030

2.4　运行实验并获得数据032

2.5　分析结果033

2.6　从结果到决策034

第3章　特威曼定律与实验的可信赖度037

3.1　曲解统计结果038

3.2　置信区间041

3.3　对内部有效性的威胁041

3.4　对外部有效性的威胁046

3.5　细分群的差异049

3.6　辛普森悖论 052

3.7　鼓励健康的怀疑态度054

第4章　实验平台和文化055

4.1　实验成熟度模型055

4.2　基础设施和工具062

第二部分　基础原理

第5章　速度很重要：一个全程案例剖析075

5.1　关键假设：局部线性近似077

5.2　如何测量网站的性能078

5.3　减速实验的设计080

5.4　对不同页面元素的影响是不同的081

5.5　极端结果083

第6章　机构指标085

6.1　指标的分类086

6.2　指标的制定：原则和技术089

6.3　指标的评估091

6.4　指标的演变092

6.5　更多的资源093

6.6　补充材料：护栏指标093

6.7　补充材料：可操纵性095

第7章　实验指标和综合评估标准097

7.1　从业务指标到适用于实验的指标098

7.2　将关键指标组合成一个OEC099

7.3　案例：亚马逊电子邮件的OEC101

7.4　案例：必应搜索引擎的OEC103

7.5　Goodhart法则、Campbell法则以及Lucas批判104

第8章　机构的经验传承与统合分析107

8.1　什么是机构的经验传承107

8.2　为什么机构的经验传承有用108

第9章　对照实验中的伦理111

9.1　背景111

9.2　数据收集116

9.3　文化与流程117

9.4　补充材料：用户标识符117

第三部分　补充及替代技法

第10章　补充技法121

10.1　补充技法的空间121

10.2　基于日志的分析122

10.3　人工评估124

10.4　用户体验调研125

10.5　焦点小组125

10.6　问卷调查126

10.7　外部数据127

10.8　总结129

第11章　观察性因果研究131

11.1　对照实验不可行的情况131

11.2　观察性因果研究的设计133

11.3　陷阱138

11.4　补充材料：被驳斥的观察性因果研究141

第四部分　实验平台搭建

第12章　客户端实验145

12.1　服务器端和客户端的差异145

12.2　对实验的潜在影响148

12.3　结论152

第13章　工具化日志记录153

13.1　客户端与服务器端的工具化日志记录153

13.2　处理多源的日志155

13.3　工具化日志记录的文化156

第14章　选择随机化单元157

14.1　随机化单元和分析单元159

14.2　用户级别的随机化160

第15章　实验放量：权衡速度、质量与风险163

15.1　什么是放量163

15.2　SQR放量框架164

15.3　四个放量阶段165

15.4　最终放量之后168

第16章　规模化实验分析169

16.1　数据处理169

16.2　数据计算170

16.3　结果汇总和可视化172

第五部分　实验分析

第17章　线上对照实验中的统计学知识177

17.1　双样本t检验177

17.2　p值和置信区间178

17.3　正态性假设179

17.4　第一/二型错误和统计功效181

17.5　偏差183

17.6　多重检验183

17.7　费舍尔统合分析184

第18章　方差估计和提高灵敏度：陷阱及解决方法185

18.1　常见陷阱186

18.2　提高灵敏度189

18.3　其他统计量的方差190

第19章　A/A测试193

19.1　为什么运行A/A测试193

19.2　如何运行A/A测试198

19.3　A/A测试失败时199

第20章　以触发来提高实验灵敏度201

20.1　触发示例201

20.2　数值示例204

20.3　最佳的和保守的触发205

20.4　总体实验效应206

20.5　可信赖的触发207

20.6　常见的陷阱207

20.7　开放性问题209

第21章　样本比率不匹配与其他可信度相关的护栏指标211

21.1　样本比率不匹配212

21.2　调试SRM214

第22章　实验变体之间的泄露和干扰219

22.1　示例220

展开