信息熵和最大信息熵原理【转】

标签:
信息熵概率论概率分布信息论随机 |
分类: 人工智能与机器人 |
信息的基本作用就是消除人们对事物了解的不确定性。美国信息论创始人香农发现任何信息都存在冗余,冗余的大小与信息的每一个符号出现的概率和理想的形态有关,多数粒子组合之后,在它似像非像的形态上押上有价值的数码,那一定是给一个博弈研究者长期迷惑的问题提供了一个负熵论据,这种单相思占优的形态以及信息熵的理解,在变换策略之后并能应用在博弈中。那些多余的策略威胁剔除之后,变成可接受的不可置信的对抗者的状态,则是博弈熵,也是对抗生物熵结,这时的对抗概率是高的。
正因为大数定理,赌场才永不停息,只要有可能出现的一定会出现。从大数定理的角度来看,这条法则千真万确,只是它需要一个条件:这件事重复的次数足够多。如果将这个大数引入价值,就会出现大的麻烦,所以概率和个数有关,在时间和空间合成的历史中,该发生的事情都让它发生。只有等到足够多的事件,才是真正的平等,而博弈的赌场游戏则是永不停息。大数定理告诉人们,在大量的随机事件的重复中,会出现多次的均衡,也会出现必然的规律。对一个混沌系统的杂乱现象,形态上的期望和试验上的观察,会发现不同的结果,也许这是自然界的奥秘,也是人类产生兴趣的根源。
信息熵 - 正文
信源的平均不定度。在信息论中信源输出是随机量,因而其不定度可以用概率分布来度量。记
熵的概念来源于热力学。在热力学中熵的定义是系统可能状态数的对数值,称为热熵。它是用来表达分子状态杂乱程度的一个物理量。热力学指出,对任何已知孤立的物理系统的演化,热熵只能增加,不能减少。然而这里的信息熵则相反,它只能减少,不能增加。所以热熵和信息熵互为负量。且已证明,任何系统要获得信息必须要增加热熵来补偿,即两者在数量上是有联系的。
可以从数学上加以证明,只要H(X)满足下列三个条件:
①连续性:H(P,1-P)是P的连续函数(0≤P≤1);
②对称性:H(P1,…,Pn)与P1,…,Pn的排列次序无关;
③可加性:若Pn=Q1+Q2>0,且Q1,Q2≥0,则有H(P1,…,Pn-1,Q1,Q2)=H(P1,…,Pn-1)+PnHhttp://a2.att.hudong.com/47/13/01000000000000119081313082847_s.gif;则一定有下列唯一表达形式:
H(P1,…,Pn)=-Chttp://a0.att.hudong.com/58/13/01000000000000119081313080458_s.gifP(xi)logP(xi)
其中C为正整数,一般取C=1,它是信息熵的最基本表达式。信息熵的单位与公式中对数的底有关。最常用的是以2为底,单位为比特(bit);在理论推导中常采用以e为底,单位为奈特(Nat);还可以采用其他的底和单位,并可进行互换。
信息熵除了上述三条基本性质外,还具有一系列重要性质,其中最主要的有
①非负性:H(P1,…,Pn)≥0;
②确定性:H(1,0)=H(0,1)=H(0,1,0,…)=0;
⑤上凸性:H【λP
最简单的二元信源的信息熵性质如图所示。
http://a4.att.hudong.com/68/13/01000000000000119081313087968_s.jpg信息熵
当实际信源用随机序列X来表示时,它的熵可以直接推广为:http://a4.att.hudong.com/81/13/01000000000000119081313098781_s.gif。但对连续信源则不能进行类似的推广。因为这样就必然会出现无限大量。1948年C.E.仙农建议用概率密度p(x)来定义H(X),
http://a2.att.hudong.com/86/13/01000000000000119081313099986_s.gif
这样定义的熵虽然仍具有可加性等熵的主要性质,但已不具有非负性,因此也不再代表连续信源的信息量。但由于在大量实际问题中需要的仅是两个熵的差值,这时它仍具有信息量特征的非负性。因此,连续熵H(X)具有相对性,又称为相对熵。它与力学中的势能概念相仿。从理论上看,仙农对连续熵H(X)的定义是不完善的。1951年S.库尔伯克研究信息论在统计学中的应用时,引入了信息变差的概念。从一种概率密度p0(x)转移到另一种概率密度p(x)的信息变差I(p0,p)为
http://a0.att.hudong.com/65/13/01000000000000119081313101465_s.gif
其中要求p(x)对p0(x)绝对连续。若P0(x)是具有最大熵H0(X)的概率分布,则信息变差I(P0,P)=H0(X)-H(X),所以一般情况下的信息熵H(X)可表示为:H(X)=H0(X)-I(P0,P)。即信息熵可理解为最大熵与信息变差之间的差值。由于它对离散熵和连续熵都适用,从信息变差出发就能使离散熵和连续熵有统一的含义,并可以使连续熵的定义建立在更为合理的基础上。
2、最大信息上理论
摘自:http://www.wljx.sdu.edu.cn/wlwz/reading/r_infor/shang7.htm
在很多情况下,对一些随机事件,我们并不了解其概率分布,所掌握的只是与随机事件有关的一个或几个随机变量的平均值。
按最大信息熵原理,我们从全部相容的分布中挑选这样的分布,它是在某些约束条件下(通常是给定的某些随机变量的平均值)使信息熵达到极大值的分布。这一原理是由杨乃斯提出的。这是因为信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势。
在我们把熵看作是计量不确定程度的最合适的标尺时,我们就基本已经认可在给定约束下选择不确定程度最大的那种分布作为随机变量的分布。因为这种随机分布是最为随机的,是主观成分最少,把不确定的东西作最大估计的分布。
任何物质系统除了都受到或多或少的外部约束外,其内部总是具有一定的自由度,这种自由度导致系统内的各元素处于不同的状态。而状态的多样性,状态的丰富程度(混乱程度、复杂程度)的定量计量标尺就是熵,熵最大就是事物状态的丰富程度自动达到最大值。换句话说,事物总是在约束下争取(或呈现)最大的自由权,我们把这看作是自然界的根本原则。
在给定的约束条件下,由最大信息熵原理求“最佳”概率分布,就是求解条件极值问题。在某些场合,常用拉格朗日乘子法来确定此分布。
举例:
在很多情况下,对一些随机事件,我们并不了解其概率分布,所掌握的只是与随机事件有关的一个或几个随机变量的平均值。例如,我们只知道一个班的学生考试成绩有三个分数档:80分、90分、100分,且已知平均成绩为90分。显然在这种情况下,三种分数档的概率分布并不是唯一的。因为在下列已知条件限制下 80*p1+90*p2+100*p3=90(平均成绩) p1+p2+p3=1(概率归一化条件) 有无限多组解,该选哪一组解呢?即如何从这些相容的分布中挑选出“最佳的”、“最合理”的分布来呢?这个挑选标准就是最大信息熵原理。 按最大信息熵原理,我们从全部相容的分布中挑选这样的分布,它是在某些约束条件下(通常是给定的某些随机变量的平均值)使信息熵达到极大值的分布。这一原理是由杨乃斯提出的。这是因为信息熵取得极大值时对应的一组概率分布出现的概率占绝对优势。从理论上可以证明这一点。 在我们把熵看作是计量不确定程度的最合适的标尺时,我们就基本已经认可在给定约束下选择不确定程度最大的那种分布作为随机变量的分布。因为这种随机分布是最为随机的,是主观成分最少,把不确定的东西作最大估计的分布。 任何物质系统除了都受到或多或少的外部约束外,其内部总是具有一定的自由度,这种自由度导致系统内的各元素处于不同的状态。而状态的多样性,状态的丰富程度(混乱程度、复杂程度)的定量计量标尺就是熵,熵最大就是事物状态的丰富程度自动达到最大值。换句话说,事物总是在约束下争取(或呈现)最大的自由权,我们把这看作是自然界的根本原则。
转自:http://hmily8866.blog.163.com/blog/static/2437323201132110143733/