LDA模型简介

标签:
lda主题模型it教育 |
分类: MATLAB |
近年来,隐含狄雷克雷分布(LDA)对语义主题构成提供了一个新颖的架构,而被广泛应用,例如图像检索、图像场景分类,以及行为检测等任务。PLSA
提供一个与词典容量无关的稳定表示,由于没有对潜在主题如何生成文档提供一个概率模型,不能对新文档产生良定义,导致泛化性能较差。Blei在
PLSA基础上的扩展,提出 LDA 模型。LDA 是在 PLSA 模型基础上加上超参数层来建立隐藏变量z 的概率分布而形成的,它是一个层次化的贝叶斯模型。它使用
Dirichiet分布来描述主题分布,即以基于
Dirichict 共扼先验分布来采样视频主题的混合。在
LDA 模型中首先采样一组主题,然后每个视频由这一主题分布而产生的,根据每个相关主题下的多项式分布上产生每个运动词语。因此 LDA 克服了 PLSA
模型中上述缺点,因此可以本文将在 LDA
模型的基础上进行扩展实现人体行为建模,完成人体行为分类。
LDA(Latent Dirichlet
Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型(前面博客有讲过),就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
下面对其做详细介绍:
1)隐含狄雷克雷分布(LDA)模型
设含有M ( j = 1,2,...,M)个视频序列的数据集D={v1,v2,....,vM}其中每个视频
vj 表示为含有
N 个运动词汇的序列
并且每个运动词汇wi 均取自含V
( i = 1, 2,...,V)个基本词汇的运动词汇表。形
式化讲,视频集 D
中视频序列v包含的行为模式w 生成过程如下:
(1) 确定行为模式 w
所含动作词汇的数目 N : N ∼ Poisson (ξ );
(2) 确定各种行为类型的混合比例θ : θ ∼
Dirichlet(α );
(3) 确定各种运动词汇的混合比例φ : φ ∼
Dirichlet( β);
http://s4/mw690/005OSrNgzy6QH5sqb2bc3&690
2)参数学习
在本节的人体分类任务中,概率图模型引入隐含变量z 和θ
,须借助 EM 算法
结合变分推导(Variational
Inference)完成生成模型的参数学习。
根据 DeFinetti
定理:对于任意无限交换序列的随机变量都是在某一随机参数
下独立同分布,而随机参数服从某一特定分布,因此这些随机变量的联合分布是
关于随机参数的分布。在 LDA
模型中,由于视频以运动词包来表示,对运动词语
顺序无要求,是无限可交换序列。视频中的运动词语是关于人体行为的多项式分
布,因此,视频关于运动词语的联合分布则变成关于人体行为的分布:
其中θ 就是 DeFinetti
定理中的参数,通过将这一随机参数服从 Dirichlet 分布,并
对行为z
进行累计,即可得出边缘概率如下式所示。
根据 Jordan
提出变分推导的方法,将原概率图模型转换成较为简单的图模型来计
算似然值的近似值。以往文献关于 LDA
模型的应用中,通过把变分法与 EM 算法
结合起来计算主题分布的先验参数。变分法是为图模型中不完全数据的推断提出
的一种基于学习的逼近算法,它是为克服采用精确算法研究复杂性成指数增长的
问题及其他迭代和逼近算法的收敛速度慢的问题而提出的。变分推导是一种近似
推导方法,可将一个复杂的问题简化,假设θ 和z 在给定视频w
时条件独立:
简化过程需要引入变分参数完成简化。本节将运动词汇w
节点去掉,这样就相当
于取消了θ 和β 之间的连结。
通过采用 EM
算法,进行迭代计算一个近似值,来接近原似然值。在简化图
3.3(b)中引入变分参数 γ 和φ
后,得到一系列概率分布逼近序列,该分布由多个
便于计算的子概率组成,其中γ 服从 Dirichlet
分布参数,而φ 是多项式分布参数。
基于概率密度分解,变分后验概率q表示如下:
变分推导过程中,借用 Jessen
不等式将视频似然的对数值用一簇条件概率来逼近,
如式(3-40)所示。
将上式等号右边用 L (γ
, φ | α , β )表示后,等式两边的差值即为变分后验概率与视频
实际后验概率的 K-L 散度(Kullback-Leibler
divergence)。由 K-L 散度的性质可知
L (γ , φ | α
, β ),当且仅当 q (θ , z | γ , φ ) = p (θ
, z| w , α , β)时式(3-40)中的等号成立, 故而上式进一步简化如下:
引入变分参数γ和φ
后,可得到概率分布逼近序列,然后选择最接近的作为其逼近,然后计算γ*和φ* ,使其对应的q与 p
最接近,即最小化,使式(3-34)等号右边成为似然对数值的下界。
由于 p(θ |
α)
服从 Dirichlet
分布,也是指数簇分布。根据指数簇分布的性质:充分
统计的期望等于归一化因子关于自然参数的导数值。故而可得:
其中φ函数是 Digamma
函数,也在是Γ函数对数形式的一阶导数。将式(3-38)和指数簇性质应用于(3-37),扩展后式(3-39)所示。其中时(3-39)等号后的每一行分别对应式(3-37)等号后的每一行分别对应式(3-37)等号右边中的每一项。
EM
算法可以处理存在不完全数据时的参数估计问题,它能够根据所得的数据
对缺失的数据进行估计和推断来补全数据,然后再根据补全后所得的完全数据集
进行迭代计算。变分法与 EM
算法结合起来求解超参数α和β。EM 算法之前对α和β
分别赋以随机数进行初始化后,循环执行 E-Step 和
M-Step。将全部训练视频
样本集合代入学习,则可在 EM
算法收敛后得到通用主题混合的先验参数α,以
及与主题相关的视觉词语多项式分布参数β。
3)基于 LDA 模型的行为分类
由于本节模型由多个类模型所组成,可以在模型判定过程中采用最大似然模
型比较(Model
Comparison)选择最能解释训练数据的类模型,从而确定该视频所
属的人体行为类别。给定由 Dirichlet 先验参数α 和β
所决定的各个类模型
zc,对测试视频数据wtest
的后验概率可按贝叶斯规则写成下式:
其中与视频有关的项
P(wtest |zc)是zc
的证据因子项,对后验概率起决定作用,
P(zc )
反映的是在数据到来之前对某一类行为zc 的信任程度,在本节判别过程中忽略不
计。由式(3-41)可知视频数据的真正后验值可用变分近似后验值代替,将视频后
验值用似然值
L(γ ,φ
| αc , βc)
表示。分别计算各个类模型下的 L(γ ,φ
| αc , βc) ,根据贝
叶斯规则进行判别。在最大似然模型比较中,首先进行候选模型的最大似然参数
估计,然后代入计算对应的每一模型最大似然值,根据式(3-47),进行最大似然
值比较得出行为所属类别。
参考:LDA百度百科、《基于主题模型的人体异常行为识别研究》