加载中…
个人资料
大蒜开门
大蒜开门
  • 博客等级:
  • 博客积分:0
  • 博客访问:76,154
  • 关注人气:7
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

数学之美读书笔记(三)

(2012-07-11 22:53:56)
标签:

it

算法

机器学习

Chapter. 20 最大熵模型

1.最大熵模型:保留全部不确定性,对未知情况不作任何主观假设,将风险降到最小。

2.对任何一组不自相矛盾的信息,最大熵模型必存在且唯一。

3.最大熵模型虽然原理简单,但实现却需要非常大的运算量

4.最原始的最大熵模型训练方法---通用迭代算法GIS,其步骤大致为:
4.1.假设第零次迭代的初始模型为等概率的均匀分布
4.2.用第N次迭代的模型来估算每种信息特征在训练数据中的分布。如果超过了实际的,就把相应的模型参数变小,否则变大。
4.3.重复步骤2知道收敛

5.GIS是一个典型的最大期望算法(EM)

Chapter.21 拼音输入法的数学原理

1.输入法输入汉字的快慢取决于对于汉字编码的平均长度,就是击键次数乘以寻找这个键的时间

2.将汉字输入到计算机中,本质上是一个将我们认为约定的信息记录编码转化为计算机约定的编码(国际码或者UTF-8码)的信息转换过程。

3.对汉字的编码分为两个部分,对拼音的编码(按照汉语拼音标准让键盘上26个字母对应拼音),以及用于解决汉字一音多字问题的消除歧义编码

4.一个好的输入法不能要求用户一定得把每个字的音都读准,就如同一架普及型的照相机不应该要求使用者精通光圈和快门速度的设置。

5.语言和文字作为通信的编码手段,一个重要的目的是帮助思维和记忆。如果一个输入法中断了人的思维过程,就和人的自然行为不相符合。

6.香浓第一定律指出:对于一个信息,任何的编码长度都不小于他的信息熵。

7.每一个拼音可以对应多个汉字,把一个拼音串对应的汉字从左到右连起来,就是一张有向图,他被称为网络图或篱笆图(lattice)。拼音输入法就是要根据上下文在给定拼音条件下找到一个最优的(概率最大)句子。而在拼音串转为汉字的网络图中,两个节点(词)之间的距离就是其转移概率(从第一个音到第二个音)和生成概率(从音到词)的乘积。

8.数学的妙处在于他的每一个工具都有相当的普适性,在不同的应用中都能发挥巨大的作用。

Chapter.23 布隆过滤器

1.在日常生活中,包括设计计算机软件时,经常要判断一个元素是否在集合中。最直接的办法就是将集合中全部的元素存在计算机中,遇到一个新元素时将它和集合中的元素直接比较即可。

2.布隆过滤器---实际上是一个很长的二进制向量和一系列随机应设函数,只需要哈希表的1/8到1/4的大小就能解决同样的集合存储问题

3.布隆过滤器有一定的误识别率,通常通过建立一个小的白名单用来存储那些可能误判的邮件地址来补救。

Chapter24.贝叶斯网络

1.符合马尔科夫假设(一个状态只与他直接相连的状态有关)的各种状态之间的关系网就是贝叶斯网络,网络每一个节点的计算都可以用贝叶斯公式进行,而网络的没一个弧度都有一个量化的置信度(权重)

2.使用BN必须先通过结构训练和参数训练确定网络的拓扑结构和各个状态之间的相关概率

3.exhaustive search--完备搜索,既考虑每一条路径才能得到全局最优解,但这样的计算复杂度是NP-hard(现有计算能力不能实现的)

4.greedy algorithm---贪婪算法,在每一步时沿着箭头方向寻找有限步,但这种方法会导致陷入局部最优。

5.解决局部最优解的方法:
    5.1.蒙特卡罗法,用许多随机数在BN中试一试,看看是否显然局部最优
     5.2.利用信息论,计算节点之间两两的互信息,然后只保留互信息较大的节点直接连接,然后再对简化了的网络进行完备的搜索,找到全局最优的结构。

6.在确定BN的结构后,利用EM过程优化BN的参数(用条件概率度量的事件弧权重),以观察到的训练数据后验概率(条件X和结果Y之间的联合概率P(X,Y))最大化为衡量标准。,可用最大熵模型的训练方法训练。

7.结构训练和参数训练通常交替进行,直到模型收敛或误差达到设定阀值

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有