贝叶斯统计是和基于频率的传统统计(频率派统计) 不同的⼀套关于统计推断或决策的理论、⽅法与实践. 传统统计由于其概率是⽤频率定义的, 因此有其天⽣的弱点和缺陷,许多推断问题⽆法得到明确的结论. 贝叶斯统计的思维⽅式与传统统计不同, 成为与传统统计平⾏的决策体系. 在不同的数据分析问题中, 这两种决策体系各有优劣. 但关于这两种体系在哲学意义上优劣的争论则从来也没有停⽌过. 当然, 实际⼯作者们则不会在意这些争论, ⽽是选择最能够达到他们⽬标的⽅法, ⽆论是贝叶斯⽅法还是传统统计⽅法.
贝叶斯思维在统计建模和数据分析⽅⾯具有许多优点. 它提供了⼀种根据最近的知识更新信仰的机器学习过程. 例如, 它提供⽐经典统计更具有概率意义的推断, 它还可以使⽤现代抽样⽅法评估嵌套模型和⾮嵌套模型(区别传统⽅法) 的概率, 它也很容易拟合使⽤经典⽅法很难应付的复杂随机效应模型.
在前计算机时代, 贝叶斯统计的发展曾经被计算资源的有限性拖累, 现在这个问题已经不存在了. ⽬前贝叶斯建模急剧增长的两个主要原因是: (1) 计算贝叶斯后验分析所需的各种积分算法的持续发展; (2) 现代计算速度的不断加快. 现在⼈们完全可以使⽤贝叶斯模型来拟合传统统计⽅法⽆法应付的⾮常复杂的模型.
和传统频率派数理统计类似, 纯粹贝叶斯派的统计属于模型驱动的范畴, 这两种统计与数据驱动或问题驱动的现代数据科学理念有不⼩的差距. 然⽽, 贝叶斯统计的某些思维模式对于数据科学的机器学习⽅法有很⼤的启发. 除了数据科学常⽤的朴素贝叶斯分类和贝叶斯⽹络之外, 在神经⽹络和深度学习等完全是数据驱动的实践中, 到处都可以看到贝叶斯的影⼦. 当然, 这些可能不被纯粹的贝叶斯派公开认可, 但的确是受到贝叶斯统计思维的影响. 长期以来, 在英⽂中, 纯粹贝叶斯派⽅法⽤\Bayesian' 作为形容词, ⽽那些有些“离经叛道' 的⽅法只能⽤\Bayes' 作为形容词. 现在这两者的区别已经不那么绝对. 任何数学体系⾯对⼴⼤的应⽤环境, 不可能也没有必要为保持其``纯洁性' ⽽⽌步不前.
除了介绍贝叶斯统计的基本概念之外, 本书还介绍了不同贝叶斯模型的数学背景、与贝叶斯模型对应的各种计算⽅法, 并基于数据例⼦来介绍如何通过各种软件实现数据分析.本书希望使对贝叶斯统计感兴趣的广大群体获得强有力的计算能力, 以发挥他们无穷的想象力和创造力.
除了R 和Python 之外, 本书基本上平⾏地使⽤两个贝叶斯编程的专⽤软件: 以R 为平台的Stan 和以Python 为平台的PyMC3, 它们都是⼈们喜爱的最新的基于MCMC 和C++ 编译器的贝叶斯编程软件. 之所以平⾏使⽤不同软件, 是因为它们各有优缺点, 适⽤于有不同编程习惯的⼈. 当然, 不同软件的使⽤环境不同, 两个软件的应⽤不可能也没有必要做到百分之百重合, 相信读者能够通过实践掌握它们(⾄少其中之⼀).
本书的读者对象既包括希望了解贝叶斯统计数学概念的读者, 也包括那些希望利⽤贝叶斯模型来做实际数据分析的读者. 本书的计算是由编程软件实现的, 我们希望有更多的⼈通过这本书学会利⽤编程软件与数据建模.
展开