浅谈信息熵_信息科学技术概论

http://blog.sina.com.cn/u/2953203625

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

浅谈信息熵

(2012-12-25 17:42:02)

标签：

杂谈

浅谈信息熵

——杨洋1200012760

摘要：

信息熵是度量信息的量的大小的一个概念，本文将介绍信息熵这个概念，并介绍它的一些性质。

关键词：熵、信息论、香农

引言：

我们都知道我们学院的名字叫做“信息科学技术学院”，那这个“信息”指的是什么呢？“信息”又如何来度量呢？

正文：

凡是在一种情况下能减少不确定性的任何事物都叫信息^[1]。信息熵刻画信息量，或者说不确定性、混乱程度。

定义1：设X为一随机变量，值域为{x1,…,xn}，信息熵H(X)=E(I(X)), E为期望，I(X)是X的信息量，若设p(xi)为X=xi的概率,则一般定义I(xi)=-log_bp(xi)，H(X)=-Σp(xi)log_bp(xi)。并且约定0log_b0=0

定理1：熵均大于等于零，即，H(X)>=0。

证明：0<=p(xi)<=1，故-p(xi)log_bp(xi)>=0。

定理2：H(X)<=log₂n。当且仅当p(x1)=p(x2)=...=p(xn)时，等号成立，此时系统S的熵最大。

证明：由均值不等式的推广形式知，Π(1/p(xi))^p(xi)<=Σp(xi)*(1/p(xi))=n，等号成立当且仅当p(x1)=p(x2)=...=p(xn)，两边取对数得H(X)<=log₂N。

这个定理很容易理解，以n=2为例，当两种情况概率相等时，我们最难预测取值，所以信息量也是最大的。

联合熵(Joint entropy)：联合熵是一集变量之间不确定性的衡量手段。

定义2：H(X1,…,Xn)=-Σ…ΣP(x1,…,xn)log₂[P(x1,…,xn)]

定理3：一集变量的联合熵大于或等于这集变量中任一个的独立熵，少于或等于这集变量的独立熵之和。

max(H(X1),…,H(Xn))<=H(X1,…,Xn)<=H(X1)+…+H(Xn) X1…Xn在统计学上相互独立的时候取等号。

证明：限于篇幅只证两个变量的情况，多个变量时证明类似。设两个变量为A,B，值域分别为{a1,…,an}{b1,…,bm}，P(ai,bj)用Pij表示。

http://s13/mw690/b0064fa907b5dd298f01c&690

备注：这段证明由于用了公式编辑器，里面的公式显示不出来，所以只好用图片的方式展示了=.=

条件熵(conditional entropy)

定义3：条件熵表示如果已经完全知道Y的前提下，X的信息熵还有多少。用H(X|Y)表示。

定理4：H(X|Y)=H(X,Y)-H(Y)<=H(X)，当且仅当X，Y在相互独立时等号成立。证明较容易，故从略。

互信息(Mutual Information)指两个事件集合之间的相关性，用记号I(X;Y)表示。

定义4：两个事件X和Y的互信息定义为

I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(X,Y)=H(X,Y)-H(X|Y)-H(Y|X)>=0

信息熵的应用：先看一个有趣的例子^[2]：

某宿舍二楼到三楼之间楼梯的窗户外面是相邻的一个平房的房顶。在那一带栖息着三只猫，每只猫有两种状态——在屋内和在屋外。显然，三只猫的状态共有8种可能情况，假设它们是等概率的。现在，A在一楼的小卖部，A希望知道猫当时的状况，因此，A往上看了一眼，结果发现在这个位置只能知道屋内猫的只数。注意，A无法知道具体是哪几只猫在屋内。

问题1：把所有猫的情况作为一个随机变量x，则当A在小卖部的时候，x的熵是多少？

答：由于8种情况的概率相等，所以H(x)=log8

问题2：A看一眼所得到的信息y的熵是多少？

答：由于猫的只数共有0,1,2,3四种情况，概率分别为(1/8,3/8,3/8,1/8)，所以：

H(y) =-(1/8*log(1/8)+3/8*log(3/8)+3/8*log(3/8)+1/8*log(1/8))=log8-6log(3/8)

问题3：A看完之后，x的熵H'(x)是多少？

答：此时猫的只数为0,1,2,3的四种情况的概率依次是(1/8,3/8,3/8,1/8)，而每种情况的熵分别为(0,log3,log3,0)，所以此时H'(x)的数学期望为：

H'(x)=1/8*0+3/8*log3+3/8*log3+1/8*0=6log3

可以发现H(x)=H(y)+H'(x)，满足定理4。

信息熵的应用十分广泛，在各个学科中都有它的影子。在图像处理^[4]，教学质量分析，数据集分割，缺陷漏磁信号量化，网络流量矩阵估算，水系统^[3]，胃癌诊断，泥沙研究等等各方面都有着应用。

结论

信息熵不仅是一门很有意思的学问，而且在实际当中也应用十分广泛。但限于知识水平有限，本文只能就一些最简单的问题展开讨论。

参考文献：

[1]克劳德·艾尔伍德·香农: 《通讯的数学理论》 (The mathematical theory of communication) 贝尔系统技术月刊l,27卷,379-423,623-656页, 1948年7月,10月

[2]侯启明：信息论在信息学竞赛中的简单应用，2003

[3]王栋，朱元甡：信息熵在水系统中的应用研究综述《水文》2001年第21卷第2期

[4]朱桂英，张瑞林：信息熵在图像处理中的应用《研究与技术》2006.12

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：浅谈软件的商业化

后一篇：小身材大能耐的MEMS

新浪BLOG意见反馈留言板　欢迎批评指正