信息熵的一些理解和定义(摘自张学文《组成论》)

标签:
信息熵条件熵复合熵it |
分类: 数学 |
信息(熵)、热力学熵和复杂程度是互相成正比例的物理量。一个通讯讯号的复杂程度就是信息(熵)、物质微观状态的复杂程度就是热力学熵。
影子不是物质,但它是物质的一种映射;信息不是物质,但它是物质的复杂程度的映射。
用复杂程度概念统一信息概念和熵概念,也为非物质的“信息”进入物理领地理顺了思路。
通信的目的不是为了得到物质材料也不是为了得到能量,而是为了得到消息。这也说明收讯人在事先对传过来的内容并不确知。申农科学地提出了度量这个不确知程度的大小问题。并且找到了表示它的科学方法。
不确定性H的值既然与对数有关,它的计量单位自然也与对数以什么为底有关。这与计算复杂程度的单位问题相同。实际上正是信息论首先提出了当对数以2为底时得到的不确定性称为Bit(比特)的主张。由于log22=1Bit ,有两个等可能性结局的抽样实验的结局的不确定性就恰好是1比特。这对应于掷一枚硬币,也对应于通信过程中讯号仅有两个等可能结局,例如高电位和低电位(或者1和0)的情况。由于它比以10为底的对数表示不确定性在通信和计算机界更好用,所以被计算机界广泛使用。今天“比特”已经成了信息的代名词。我们在复杂程度中介绍的哈特利(10为底对数)、纳特(e为底对数)都可以用于表示不确定性的大小,仅是应用面比较小而已。
信息熵公式
http://zxw.idm.cn/ZCL/part1/C8a.1.gif (8.2)
公式中pi就是xi的出现概率,k 表示不同的讯号一共有k 个。计算时如果概率的值pi是零,规定pilogpi的值也是零(数学上的极限处理也是这个结果)。
由于申农接受数学家冯.诺曼的建议把不确定性称为“熵”,所以它也被称为熵公式(又由于它是信息论中的熵所以与热力学的熵无关,我国就称它为信息熵公式)。
连续变量时的信息熵公式
x 泛指连续的随机变量,至于积分限,我们一般设变量x 从负无穷大到正无穷大。f(x)是变量x 的概率密度分布函数,即x 每增加单位值时,对应的概率的增加值。对数写成ln是照顾到积分时数学处理上的方便
如果连续的变量x 遵守著名的高斯分布(正态分布),即x 的概率密度分布满足
这里的a,σ分别表示变量的平均值和所谓标准差,把这个公式带入公式(8.3),可以得到高斯分布下的变量的信息熵H为
广义集合的内部状态的复杂程度的公式是
依照概率的古典定义,如果在N个个体中有某标志值的个体有ni个,那么从总体中任抽一个,该标志值的出现概率pi就是ni/N 。即有
pi = ni/N
把这个关系带入复杂程度公式(7.5),并且注意到信息熵公式(8.2)我们得到
C=NH (8.4)
这个公式说明
从广义集合引出的的N 个个体的复杂程度与信息论中引入的一次抽样时结局的(不确定性)信息熵是成正比例关系的两个物理量,其比例系数是个体总数N 。 信息熵是对客观事物进行随机试验的角度分析了结局的不确定性(信息熵)。复杂程度是从客观事物的内在差异性(各个个体的标志值不尽相同)的角度分析了客观事物本身状态的丰富程度。它们的视角固然有差别,但是依据的主体却相同。信息熵更接近于通讯模型,复杂程度更注重客观事物本身。我们没有批判信息论是唯心论,但是说广义集合符合唯物论,人们更容易理解。
信息熵没有负值
信息熵有最大值
当各个概率的值都相同时,信息熵的值最大 信息熵有可加性
信息熵有可加性是指不同含义的的信息熵的相加的规则
H3= H1+P H2 (8.5)
这就是信息熵的可加性的一般公式。它表示一次抽样实验结局的不确定性如果是H1 ,当把出现概率为P 的事件再细分成若干个事件时,新的抽样实验的结局的不确定性H3 由公式(8.5)计算,其中H2是概率P 对应的事件已经出现时的信息熵(细分成各种事件对应的不确定性,也称为条件信息熵)。
复合熵
复合熵,并且由下式计算
http://zxw.idm.cn/ZCL/part1/C8c.1.gif (8.6)
公式(8.6)就是根据两个离散随机变量的概率分布计算它的复合熵的公式。这里复合熵的符号H(x,y)仅表示这个熵值是关于变量x,y 的。H 是一个值,它不是x,y的函数。
条件熵
根据条件概率,利用熵公式计算的信息熵称为条件熵。
如果以x表示学生体重,以y表示身高,以 p(xi∣yj) 表示身高为yj时的体重为xi 的出现的概率,把熵公式用到这个特殊情况得到是熵显然应当是
上面得到的计算公式是针对y为一个特殊值yj时求得的熵。考虑到y会出现各种可能值,如果问已知学生身高时(不特指某一身高,而是泛指身高已经知道)的体重的熵(不确定程度),它应当是把前面的公式依各种y的出现概率做加权平均。即
http://zxw.idm.cn/ZCL/part1/C8c.3.gif (8.7)
上面的公式也可以写成
根据对数的性质,还可以把上面的公式改为
如果求x已知时y的条件熵,显然也会得到类似的公式,即还有
合并这两个公式有
这个公式把复合熵、条件熵以及熵联系到一起了。它们也显示了熵的对称性。
条件熵仅能大于等于零而不会有负值,而且不大于原来的熵,即
它说明条件熵的最大值是无条件熵。在x与y独立无关时,条件熵与原熵值相等,即
利用这些公式还可以得出复合熵小于等于对应的无条件熵的和,即
H(x,y)≤H(x)+H(y) (8.12)
这个公式表明两个(或者多个)随机变量的熵的和大于等于它们的复合熵。
信息
在申农的信息论中“信息量”是通过信息熵与条件熵的差计量的
掷一次骰子,由于六种结局(点)的出现概率相等,所以结局的不确定程度(熵)为log6 ,如果告诉你掷骰子的结局是单数或者双数,这显然是一个信息。这个信息消除了我们的一些不确定性。把消除的“不确定性”称为信息显然是妥当的。
在不知道结局为单双数时,掷一次骰子的结局的不确定性为log6 ,在仅告诉你结局是单数或者双数时是没有全部解除你对结局的疑惑,但是它确实给了一些信息,这个信息(以I表示)就用无条件熵与条件熵的差来计量。于是有
I=log6-log3=log6/3=log2
如果对数的底是2,那么仅告诉你结局的单双数,而不告诉你绝对值,它提供的信息量就是1比特。
这个例子说明y提供的关于x的信息Iy(x) 可以用不确定性的差计算,即
信息量Iy(x)=(x的不确定性)- (得到了消息y以后x的不确定性)
http://zxw.idm.cn/ZCL/part1/C8c.10.gif(8.13)
这就是计算信息量的基本公式。
H(x∣x)=0
也就是说x 值已知时所带来的信息恰好等于原来的不确定性。或者说x带来的信息在数值上恰好等于熵。这正是在一些场合下把熵直接称为信息的原因。遗憾的是有些人没有理解这个认识过程,而引出了信息是熵或者信息是负的熵的概念混乱。
如果条件熵与原熵值相等,H(x)=H(x∣y)),显然信息等于零,即
Iy(x)=H(x)-H(x)=0
这说明因素y 与x 无关,它当然也提供不了关于x 的任何信息。把公式(8.10)和信息公式(8.12)合并得到
Iy(x)≥0
它说明任何因素提供的信息不会小于零,信息没有负值。
利用关于复合熵的公式(8.9)与信息公式(8.12)可以得到
Iy(x)=Ix(y) (8.14)
它说明变量y含有的关于变量x的信息与变量x含有的关于变量y的信息是相同的。即变量之间含有的信息是对称的。
附全文地址:http://zxw.idm.cn/ZCL/