之前谈到学习就是利用数据集对参数进行最大似然估计。本质上是获取一组有效的参数。然而如果考虑一个这样的问题：一枚硬币扔10次有7次朝上；扔1000次有700次朝上。显然对于二者而言，对参数的估计都是0.7。但是如果我们已知硬币是无偏的，那么第一次可以告诉自己是意外，第二次却很难说服。极大似然估计的问题是无法对先验知识进行建模并带入模型中。

1、贝叶斯估计　　

　　在极大似然估计中，我们使用的原理是使得theta = argmax P(x|theta)，这里theta作为一个确定的量。而贝叶斯估计的原理是 theta = max p(theta|x)，这里已经发生的 x 不再是随机变量，而theta 却被视作随机变量。如下图：

　　在theta作为随机变量的前提下，每一次的观测都会影响theta，toss之间并非独立（the trace is active）。

　　其中，P(theta|x[1],……x[M])是贝叶斯推断的核心方程。由于P(x[1],…..x[M])在贝叶斯推断中是以观测量，可通过联合概率密度函数边际化求取。换而言之，和theta没关系是个常数。所以这个核心方程就只和分子有关。分子又可以分为两部分，P(x[1]….x[M]|theta)是模型CPD，p(theta)称为先验概率，是我们对theta已知情况的猜测。

2、先验——狄利克雷分布

　　显然，初期对theta的假设（p(theta)）会对我们的最终结果有很大影响（同样对某人第一映像会对此人之后感觉有很大影响）。所以需要有个函数能够简明的来对先验分布进行建模，此函数就是狄利克雷函数。

　　从直觉上来说，狄利克雷函数里的参数alpha_k代表我们的先验观测。换言之，theta是服从多项分布的，第一项我们认为被观测到alpha_1次，第二项alpha_2次…

　　狄利克雷函数有个最好的性质：如果theta的先验分布是狄利克雷的，其CPD服从多项分布，那么theta的后验分布也是狄利克雷的。举个简单的例子，如果某个骰子，虽然是有偏的，但是假设无偏。开始实验且更新数据，那么这个过程是连续变化的。每一次的后验分布都是下一次的先验分布。并且，数字出现的次数是充分统计量。