首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

Dirichlet分布及其属性

(2014-12-12 17:17:16)

Dirichlet分布及其属性

Dirichlet分布

在概率统计中，Dirichlet分布通常表示为 http://images.cnitblog.com/blog/532915/201305/27202841-318cc71c624c4ff0b896fca0476cc68b.gif的向量为参数的连续多变量概率分布族。这是Beta分布的多元推广。在贝叶斯统计中，狄氏分布很多情况下可作为先验分布，其实Dirichlet分布是类别分布和多项分布的共轭先验。

狄利克雷分布向无限维度的推广便是狄利克雷过程。

Categorical分布

分类分布（有时也被不确切地称为“离散分布”或“多项分布”）从K个概率中的一个来描述事件的发生概率。参数值必须在0、1之间，它们的和为1。分类分布是伯努利分布向多类随机变量的推广。

在分布的表达式中，令采样空间是有限的整数序列。作为标签，这些整数的值并不是重要的，他们可以是{0,1,…,K-1}或 {1,2,…,K}或者其他任意值。为了方便，这里我们使用{1,2,…,K}。

概率密度函数为：

http://images.cnitblog.com/blog/532915/201305/27202841-d1a6f785ef9848e7bc6279240f424765.gif

http://images.cnitblog.com/blog/532915/201305/27202843-b44b94061fcf43cba92fa01016ce4a2d.gif。

另外一种更复杂但利于数学运算的表达式：

http://images.cnitblog.com/blog/532915/201305/27202847-71c34862e7e74776bb2543a41659ee50.gif

http://images.cnitblog.com/blog/532915/201305/27202848-a850b84935334ab89133d7bfd58714dc.gif取值为1，否则为0.

严格意义上，分类分布可以看做是多项式分布的一种特殊形式（n=1）。

Dirichlet分布是分类分布和多项分布的共轭先验，这意味着我们可以给分类分布的未知参数 http://images.cnitblog.com/blog/532915/201305/27202848-55e75d6c33a74007930ffc6a6e44676c.gif一个服从Dirichlet分布的先验分布。然后，这个参数的后验分布（结合观测数据知识后）也是个Dirichlet分布。这样我们便可以根据每次新的观测值不断的更新参数的分布模型。形式上，解释如下：

假设模型：http://images.cnitblog.com/blog/532915/201305/27202849-344b7d90d29442b3b6542fdc2d8c6177.gif

我们有：http://images.cnitblog.com/blog/532915/201305/27202855-08a6517a5214403bb05a93c859035fce.gif

在给定分类分布的N个抽样集时，可以利用这种关系来估计它的参数 http://images.cnitblog.com/blog/532915/201305/27202856-1b7a61a7d4bd4693a5b3c86968787021.gif。此时：

http://images.cnitblog.com/blog/532915/201305/27202859-ba7c09c6a6c6489296dc095ba2608d03.gif

技术上，某些应用也可以采用：

http://images.cnitblog.com/blog/532915/201305/27202900-ed99a1f155cc4363bcf8b25027019479.gif

最大后验估计 http://images.cnitblog.com/blog/532915/201305/27202903-01e8c207dca644b281036ee2f3d08c1d.gif

边缘似然：上述模型中，观测值的边缘似然是Dirichlet-multinomial分布

http://images.cnitblog.com/blog/532915/201305/27202904-e369efaa97ec4e3a9ba5668e8aca0fc3.gif

这里使用了欧拉积分：http://images.cnitblog.com/blog/532915/201305/27202904-c29d45ea3d0847bc9d8dace1e062f056.gif

边缘似然分布在分层贝叶斯模型中扮演着重要的角色，当使用Gibbs抽样或变分贝叶斯来做推断时，Dirichlet先验分布经常需要边缘化。

后验预测分布：在已知X和 http://images.cnitblog.com/blog/532915/201305/27202908-de3da87717c94297a6a511402bfdaed0.gif的取值分布，形式如下：

http://images.cnitblog.com/blog/532915/201305/27202912-d63fa03151564f1996e06e7544046441.gif

结论：后验预测概率是后验分布的期望值。

从另一个角度来看： http://images.cnitblog.com/blog/532915/201305/27202916-97e468a9b1a74d4598bc34356ef85218.gif

新来数据会以较大的概率分配到以前出现次数较多的类中，这种情况可视作“偏好依附”模型。它与很多现实世界的过程相符，在模型下，起初少量数据点的选择对以后数据的分配将产生巨大的影响。

后验条件分布：在Gibbs抽样中，我们需要在多变量贝叶斯网络组成的条件分布（每一个变量都依赖于其他值）中进行抽样。

对于一个数据集X，用 http://images.cnitblog.com/blog/532915/201305/27202920-49ba0de2db664e8bbb107fe6e65190b2.gif的数据集，有：

http://images.cnitblog.com/blog/532915/201305/27202926-ae738be576c4473aac8a18bb722e4da9.gif

这里，http://images.cnitblog.com/blog/532915/201305/27202933-7270d372a969411e9cefb765cdd06c85.gif中属于第i类的数据个数。

抽样过程：

// do multinomial sampling via cumulative method for (int k = 0; k < K; k++) { p[k] = (nw[w][k] + beta) / (nwsum[k] + Vbeta) * (nd[m][k] + alpha) / (ndsum[m] + Kalpha); //1：得到属于每一类的概率 }//这就是ToTGibbs中的公式和text-est文件 // cumulate multinomial parameters for (int k = 1; k < K; k++) { p[k] += p[k - 1]; } //2：得到累计概率分布 // scaled sample because of unnormalized p[] double u = ((double)random() / RAND_MAX) * p[K - 1]; //3：采样均匀分布的值 for (topic = 0; topic < K; topic++) { if (p[topic] > u) { break; } } //4：返回类别

Multinomial分布

在概率理论中，Multinomial分布是二项式分布的推广。Multinomial分布给出了多类问题中，任意类别数组合的概率。

二项分布是n次伯努利分布中，两类组合发生次数的概率分布。

注意：在自然语言处理领域，categorical和multinomial分布是混为一谈的，当提到multinomial分布时实质意味着是categorical分布；当然，categorical也可以视为multinomial的特殊情况。

概率密度函数：假设袋子的球分为k类，我们做n次有放回抽样。来自同一类的球是完全一样的。我们用 http://images.cnitblog.com/blog/532915/201305/27202935-7f4c595efea345e8ac497039fb460610.gif表示属于第i类的概率。

http://images.cnitblog.com/blog/532915/201305/27202945-27f7db77c4aa4483b4eeb311a99038cc.gif

属性：在n次实验中，类i的数学期望

http://images.cnitblog.com/blog/532915/201305/27202945-4e714f9a827b42a482c16d72d0d65cb7.gif

协方差矩阵：每一个对角线元素实质是二项分布，因此

http://images.cnitblog.com/blog/532915/201305/27202946-aa9fe7e81d4c405eb581b617e6c3322c.gif

非对角线元素

http://images.cnitblog.com/blog/532915/201305/27202947-65172aa684a64ac1a15a7a577116ff35.gif

所有的协方差都是负值，因为对于固定的数值n，多类中一类的增加势必导致另类的减少。

返回Dirichlet分布，其概率密度表达式：

http://images.cnitblog.com/blog/532915/201305/27202948-f804858954084e1e9b1626440ec2d330.gif

其中，http://images.cnitblog.com/blog/532915/201305/27202953-3571bef476ec4a1daf2715504eeea489.gif的欧式空间，在不满足条件的空间里密度为0.

多项beta函数可以用gama函数表示：

http://images.cnitblog.com/blog/532915/201305/27202957-d146bffedf714b568386eda3afc5eea8.gif

特殊情况：一种比价常见的形式是对称Dirichlet分布0，这里向量http://images.cnitblog.com/blog/532915/201305/27203005-e1b5a0aed7b34958ad8aaeda2810beea.gif称为concentration parameter（浓度参数）。有：

http://images.cnitblog.com/blog/532915/201305/27203005-f588dcb3fd314992b4fb327672389912.gif

当http://images.cnitblog.com/blog/532915/201305/27203020-0806c7d910ad4c2984450f3916f65294.gif时，分布越趋于尖锐，在一次抽样中，大多数数值趋近于0，只有很少分量具有较大值。

更一般的情况，参数向量有时写成 http://images.cnitblog.com/blog/532915/201305/27203025-a6c399c150fc4ff589c4c3ca92b38a6d.gif的和为1）。主题模型的文献中经常使用这种构造。

属性：假设

 http://images.cnitblog.com/blog/532915/201305/27203026-cffc8478d3474174a4ac2bf59a6e0c76.gif

由定义得：

http://images.cnitblog.com/blog/532915/201305/27203026-04b69354aa8f4252a394314cef37de81.gif

令 http://images.cnitblog.com/blog/532915/201305/27203033-90149bbf28de4b439e9c5101eb868a50.gif，则：

http://images.cnitblog.com/blog/532915/201305/27203033-e3391f0fd7894cce86ab9d9ce3360916.gif

http://images.cnitblog.com/blog/532915/201305/27203034-16caf24e3781413fa0546534648bcb94.gif

而且，如果 http://images.cnitblog.com/blog/532915/201305/27203035-765ff6651bae41a1ad75efd8854de3a1.gif有

 http://images.cnitblog.com/blog/532915/201305/27203035-4bdc453f010b4a1f8413a417504ac509.gif

边缘分布：Dirichlet分布的边缘分布是beta分布

 http://images.cnitblog.com/blog/532915/201305/27203036-5a9935cb50ee462a9998326cb9586d27.gif

聚合性质：如果

 http://images.cnitblog.com/blog/532915/201305/27203037-d6cae5b4323a4fd0946ae4e59350efdd.gif

则 http://images.cnitblog.com/blog/532915/201305/27203037-672c4f8ae31140fd9b7ec5684a15aafc.gif

这个性质可以用来推导出上面提到的边缘分布。

相关分布：

1.对于 http://images.cnitblog.com/blog/532915/201305/27203041-d60ee5fa68d8402db6336e369da886c7.gif

http://images.cnitblog.com/blog/532915/201305/27203041-1d4854f06612419a986bf2f1c0151d41.gif

2.

http://images.cnitblog.com/blog/532915/201305/27203045-b83f58601f8440f6aa84dfdf88bdd314.gif2.

3.那么：

http://images.cnitblog.com/blog/532915/201305/27203045-4b4ccbbe1b6d41798c4ead034be7bd14.gif

虽然 http://images.cnitblog.com/blog/532915/201305/27203052-f035e1776c9f45eb9e2f7891cdcb3a15.gif之间并不是相互独立的，但他们可以通过K个独立的gamma分布得到，详见 Devroye, Luc (1986). Non-Uniform Random Variate Generation. Springer-Verlag. p. 594. (Chapter 11.)。

Gamma分布

使用Gamma分布，我们可以很容易地得到K维 http://images.cnitblog.com/blog/532915/201305/27203103-df124ee89e2944cf85490b9b8e4cc62a.gif。

http://images.cnitblog.com/blog/532915/201305/27203106-103649b09fb0438ca307554c23e6bf83.gif

然后得：

http://images.cnitblog.com/blog/532915/201305/27203107-823862d52171499d8557f78820d9bb3f.gif

分享：

喜欢

0

赠金笔

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

加载中，请稍候......

前一篇：LDA-math-MCMC 和 Gibbs Sampling

后一篇：算法——贝叶斯