浅谈信息熵

标签:
杂谈 |
浅谈信息熵
摘要:
信息熵是度量信息的量的大小的一个概念,本文将介绍信息熵这个概念,并介绍它的一些性质。
关键词:熵、信息论、香农
引言:
我们都知道我们学院的名字叫做“信息科学技术学院”,那这个“信息”指的是什么呢?“信息”又如何来度量呢?
正文:
凡是在一种情况下能减少不确定性的任何事物都叫信息[1]。信息熵刻画信息量,或者说不确定性、混乱程度。
定义1:设X为一随机变量,值域为{x1,…,xn},信息熵H(X)=E(I(X)), E为期望,I(X)是X的信息量,若设p(xi)为X=xi的概率,则一般定义I(xi)=-logbp(xi),H(X)=-Σp(xi)logbp(xi)。并且约定0logb0=0
定理1:熵均大于等于零,即,H(X)>=0。
证明:0<=p(xi)<=1,故-p(xi)logbp(xi)>=0。
定理2:H(X)<=log2n。当且仅当p(x1)=p(x2)=...=p(xn)时,等号成立,此时系统S的熵最大。
证明:由均值不等式的推广形式知,Π(1/p(xi))p(xi)<=Σp(xi)*(1/p(xi))=n,等号成立当且仅当p(x1)=p(x2)=...=p(xn),两边取对数得H(X)<=log2N。
这个定理很容易理解,以n=2为例,当两种情况概率相等时,我们最难预测取值,所以信息量也是最大的。
联合熵(Joint entropy):联合熵是一集变量之间不确定性的衡量手段。
定义2:H(X1,…,Xn)=-Σ…ΣP(x1,…,xn)log2[P(x1,…,xn)]
定理3:一集变量的联合熵大于或等于这集变量中任一个的独立熵,少于或等于这集变量的独立熵之和。
max(H(X1),…,H(Xn))<=H(X1,…,Xn)<=H(X1)+…+H(Xn) X1…Xn在统计学上相互独立的时候取等号。
证明:限于篇幅只证两个变量的情况,多个变量时证明类似。设两个变量为A,B,值域分别为{a1,…,an}{b1,…,bm},P(ai,bj)用Pij表示。
http://s13/mw690/b0064fa907b5dd298f01c&690
条件熵(conditional entropy)
定义3:条件熵表示如果已经完全知道Y的前提下,X的信息熵还有多少。用H(X|Y)表示。
定理4:H(X|Y)=H(X,Y)-H(Y)<=H(X),当且仅当X,Y在相互独立时等号成立。证明较容易,故从略。
互信息(Mutual Information)指两个事件集合之间的相关性,用记号I(X;Y)表示。
定义4:两个事件X和Y的互信息定义为
I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)=H(X,Y)-H(X|Y)-H(Y|X)>=0
信息熵的应用:先看一个有趣的例子[2]:
某宿舍二楼到三楼之间楼梯的窗户外面是相邻的一个平房的房顶。在那一带栖息着三只猫,每只猫有两种状态——在屋内和在屋外。显然,三只猫的状态共有8种可能情况,假设它们是等概率的。现在,A在一楼的小卖部,A希望知道猫当时的状况,因此,A往上看了一眼,结果发现在这个位置只能知道屋内猫的只数。注意,A无法知道具体是哪几只猫在屋内。
问题1:把所有猫的情况作为一个随机变量x,则当A在小卖部的时候,x的熵是多少?
答:由于8种情况的概率相等,所以H(x)=log8
问题2:A看一眼所得到的信息y的熵是多少?
答:由于猫的只数共有0,1,2,3四种情况,概率分别为(1/8,3/8,3/8,1/8),所以:
H(y) =-(1/8*log(1/8)+3/8*log(3/8)+3/8*log(3/8)+1/8*log(1/8))=log8-6log(3/8)
问题3:A看完之后,x的熵H'(x)是多少?
答:此时猫的只数为0,1,2,3的四种情况的概率依次是(1/8,3/8,3/8,1/8),而每种情况的熵分别为(0,log3,log3,0),所以此时H'(x)的数学期望为:
H'(x)=1/8*0+3/8*log3+3/8*log3+1/8*0=6log3
可以发现H(x)=H(y)+H'(x),满足定理4。
信息熵的应用十分广泛,在各个学科中都有它的影子。在图像处理[4],教学质量分析,数据集分割,缺陷漏磁信号量化,网络流量矩阵估算,水系统[3],胃癌诊断,泥沙研究等等各方面都有着应用。
结论
参考文献:
[1]克劳德·艾尔伍德·香农: 《通讯的数学理论》 (The mathematical theory of communication) 贝尔系统技术月刊l,27卷,379-423,623-656页, 1948年7月,10月
[2]侯启明:信息论在信息学竞赛中的简单应用,2003
[3]王栋,朱元甡:信息熵在水系统中的应用研究综述 《水文》2001年第21卷第2期