加载中…
个人资料
大蒜开门
大蒜开门
  • 博客等级:
  • 博客积分:0
  • 博客访问:75,938
  • 关注人气:7
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
相关博文
推荐博文
谁看过这篇博文
加载中…
正文 字体大小:

总得更新点啥吧,数学之美读书笔记(一)

(2012-06-23 01:42:07)
标签:

机器学习

自然语言处理

杂谈

分类: 数据分析
Chapter.1 文字,语言,数学,信息

1.数学,文字皆是信息的载体
2.从单一的文字到语言的转变就是一种概念的聚类,通过上下文所建立的条件概率模型可推算某多义词在句中的含义
3.信息冗余是信息安全的保证
4.语言的数据---多语对照语料(用于破解语言规则,即翻译)
5.将日常的白话口语写成精简的文言文本身是一个信道压缩的过程,而将文言文解释清楚则是对应的解压缩过程。
6.词可认为是有限而封闭的集合,语言则是无限且开放的集合,前者有完备的编码规则,后者则不然

Chapter.2 自然语言处理--从规则到统计

1.我们把一个要表达的意思,通过某种语言的一句话表达出来,就是用这种语言的编码方式对头脑中的信息做一次编码,编码的结果就是一窜文字。如果对方懂得这门语言,就可以用这门语言的解码方法获得说话人要表达的信息。

Chapter.3 统计语言模型

1.一个句子是否合理,由这种文字组合出现的概率来判断。
2.一阶(可扩展到n阶)马尔科夫假设---用p(wi|wi-1)近似p(wi|wi-1,wi-2,...w1)
3.不平滑问题:由于训练样本不足而造成的部分条件概率为0的估计问题
4.古德-图灵估计:从概率总量中分配一个小比例给未看见的事件(训练集以外)----即给不可信的样本集打一个估计总体的折扣(对出现频次小于某阀值的词的估计打一折扣已解决不平滑问题)

Chapter.4 中文分词

1.没有100%确定的规则,只有适合应有的选择
2.此地安能居住,其人好不忧伤
  此地-安能-居住,其人-好不-忧伤
  此地安-能居住,其人好-不忧伤

语言对信息的表达总是有噪音(这里是个人情感)的而不能完全精确解码,对有噪音训练集进行学习反而能更好的实现对现实语言的判别需求

3.世上东西总是相通的,譬如分词的颗粒和神经网络的步长就是一对

0

阅读 评论 收藏 转载 喜欢 打印举报/Report
  • 评论加载中,请稍候...
发评论

    发评论

    以上网友发言只代表其个人观点,不代表新浪网的观点或立场。

      

    新浪BLOG意见反馈留言板 电话:4000520066 提示音后按1键(按当地市话标准计费) 欢迎批评指正

    新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 会员注册 | 产品答疑

    新浪公司 版权所有