加载中…
个人资料
  • 博客等级:
  • 博客积分:
  • 博客访问:
  • 关注人气:
  • 获赠金笔:0支
  • 赠出金笔:0支
  • 荣誉徽章:
正文 字体大小:

机器学习技术与实战:医学大数据深度应用

(2018-05-17 11:37:43)
标签:

it

健康

时评

前言

什么是机器学习?现在恐怕无需再做基本概念解释了。这里,我们谈一个机器学习的实用技术。我们知道,有了数据,我们要做很多分析工作。其中很常见的、很基本一个分析是,针对目标变量,我们需要从大量的候选变量(可能是几百个、几千个)中,探索、发现哪些变量与目标变量具有较强的广义相关性。我们可能应用很多不同的算法,一一对每个候选变量与目标变量进行相关性探索尝试,可有时还是没能找到一个有显著相关性的变量。不少人可能都觉得没办法了。但是,没有找到显著的独立相关变量,不意味着不存在任何相关变量了,数据中有可能存在着多个变量组合与目标变量具有较强的相关性(多变量相关组),或者说,与目标变量具有较强相关性的某个变量在数据中被“拆分”成了多个与目标变量不具有较强相关性的分变量。那么,在几百个甚至成千上万个候选变量中,如何有效地找到一个或多个多变量相关组呢?这是机器学习技术与工程实践中一个典型的深入课题。解决这个问题,就像下围棋一样,棋局太多、变化太多,着法也太多。机器学习中类似的分析课题有很多,这需要我们不断地探索、不断地实践、不断地创新、不断地积累,以便在千变万化的“棋局”中找到解决之道、制胜之道!

 http://s11/mw690/005G6fr7zy7kwSWCJ509a&690


机器学习作为一种自动化、智能化的深度分析技术,从更高的层面上讲,其目的就是要从由数据代表的世界真实事物中探索和挖掘真实世界中的潜在规律和隐含机理,因此,机器学习除了是一门实用的应用技术以外,它的发展前沿还是奥秘揭示、知识发现、和科学探索!更高瞻远瞩一些,机器学习随着理论和实践的不断深入,已经不再是原先狭义的“数据利用”和“知识发现”了,正在越来越深入到数学发现、甚至哲学发现以及科学发现了。例如,机器学习通常从刻画客观事物的各类大数据中挖掘出内在的规律,并期望能得到可靠、精准的可预测性结果。但是,随着机器学习应用和研究的深入,我们发现了大量不可预测的现象与问题。通常,技术人员会想是数据的出现了问题?还是算法出现了问题?因为人们的传统思维通常是建立在确定性理论基础之上的。但是,科学家们已经越来越多地意识到、甚至认识到了世界上大量不确定性现象的客观存在。

那么,数据中出现的这种不可预测性,很可能是由不确定性系统产生的。现实世界中,除了我们认识到的确定性系统之外,还存在着很多不确定性系统,这些系统中拥有大量的非线性的、无序的现象和事物。例如,量子力学中的不确定性原理、混沌学中确定性系统中的无序随机性,都是属于不确定性的,也就是说,至少是目前技术水平下,是不可预测的。但是,系统中存在着混沌性和无序性,并不意味着无规律性。实际上,很多系统中的非线性无序状态中蕴含着许多规律性,只不过现代的理论和技术比较有限,尚不能很好地认识和应用这些规律。例如,混沌学中洛伦茨奇异吸引子是一个美丽的无序状态,它是有规律的,数据的表现貌似随机,但却是遵循着一定之规(数学模型)的。

实际上,除了混沌学发现了大量的无序的现象外,还有其他学科涉及到不确定性系统的研究,例如,概率论也是研究无序(随机)问题的一个分支学科。无序(随机)与有序(确定)是相对的,而不同的无序(随机)之间也具有相对的。以上都体现了系统的不确定性,由数据表达的时候,就出现了不可预测性。这就需要机器学习或者数据挖掘的理论、技术与实践还要不断创新和发展。因此,我们说,机器学习,在现在和未来,作为现实世界科学探索的一个工具和技术,将不断地探索和发现包括不确定性系统产生的大量客观规律,以便更好地服务于各行各业的应用实践!

由于本书还是沿用了《数据挖掘技术与工程实践》的写作方法和组织风格,所以,摘要了该书前言的一些段落,用于本书导读等方面的介绍,请参阅。

 

致谢

现在,大数据和机器学习是热门,长年从事这个领域工作的我及我的团队都很忙,能够出版这本书,实属不易。需要感谢的是,我公司的Sun Chen (孙辰),他是来自澳大利亚的资深数据分析师,是悉尼大学统计学硕士,在本书的编写和整理过程中做了不少的协助工作,在此表示由衷的感谢!当然,机械工业出版社的吴怡老师给予了我一贯的支持,她严谨的学术态度和丰富的编辑专业经验,不仅是本书质量的保证,也给我留下了深刻的印象,再次向吴老师表示衷心的感谢!最后,还是要特别感谢我的家人了,他们是我事业的最有力支持,包括我写本书。因此,本书还是要献给我亲爱的儿子Eddie和我所有的家人!

知识无止境,学习无止境!我和我的团队也还在不断地学习。书中的错误和不当之处可能难免,敬请广大读者指正,不胜感谢!

                                       Hong Song Lin (洪松林)

                                      

CONTENTS 
目  录 
前言 
1章 机器学习基础
 1.1 认识机器学习
1.1.1
 机器学习概念
1.1.2
 机器学习与生活
1.1.3
 机器学习与知识
 1.2 机器学习应用基础
1.2.1
 事物与维度
1.2.2
 分布与关系
1.2.3
 描绘与预测12 
1.2.4
 现象与知识13 
1.2.5
 规律与因果13 
 1.3 机器学习应用系统14 
1.3.1
 数据层14 
1.3.2
 算法层18 
1.3.3
 应用层23 
1.3.4
 经验积累与应用26 
 1.4 无限三维嵌套空间假说26 
1.4.1
 一维空间26 
1.4.2
 二维空间26 
1.4.3
 三维空间27 
1.4.4
 突破三维空间27 
1.4.5
 五维空间28 
1.4.6
 六维空间29 
 1.5 分数维度空间30 
1.5.1
 分数维度30 
1.5.2
 自相似性31 
1.5.3
 无限迭代32 
 1.6 不确定论33 
 1.7 本章小结34 
2章 数据探索35 
 2.1 数据关系探索36 
2.1.1
 业务发现36 
2.1.2
 关系发现38 
2.1.3
 数据质量探索38 
2.1.4
 数据整合42 
 2.2 数据特征探索43 
2.2.1
 数据的统计学特征43 
2.2.2
 统计学特征应用50 
2.2.3
 变量相关性探索53 
 2.3 数据选择56 
2.3.1
 适当的数据规模57 
2.3.2
 数据的代表性57 
2.3.3
 数据的选取59 
 2.4 数据处理61 
2.4.1
 数据标准化62 
2.4.2
 数据离散化63 
 2.5 本章小结64 
3章 机器学习技术65 
 3.1 聚类分析65 
3.1.1
 划分聚类(K均值)66 
3.1.2
 层次聚类(组平均)70 
3.1.3
 密度聚类75 
 3.2 特性选择76 
3.2.1
 特性选择概念76 
3.2.2
 线性相关80 
3.2.3
 相关因子SRCF82 
 3.3 特征抽取91 
3.3.1
 主成分分析91 
3.3.2
 因子分析93 
3.3.3
 非负矩阵因子分解94 
 3.4 关联规则95 
3.4.1
 关联规则概念95 
3.4.2
 Apriori算法96 
3.4.3
 FP树频集97 
3.4.4
 提升(Lift97 
 3.5 分类和预测98 
3.5.1
 支持向量机98 
3.5.2
 Logistic回归102 
3.5.3
 朴素贝叶斯分类106 
3.5.4
 决策树112 
3.5.5
 人工神经网络116 
3.5.6
 分类与聚类的关系119 
 3.6 时间序列120 
3.6.1
 灰色系统预测模型120 
3.6.2
 ARIMA模型预测126 
 3.7 深度学习127 
3.7.1
 图像深度学习:卷积神经网络127 
3.7.2
 自然语言深度学习:循环神经网络141 
 3.8 本章小结145 
4章 机器学习应用案例146 
 4.1 特性选择的应用146 
4.1.1
 数据整合146 
4.1.2
 数据描绘147 
4.1.3
 数据标准化148 
4.1.4
 特性选择探索148 
 4.2 分类模型的应用——算法比较154 
4.2.1
 数据整合154 
4.2.2
 数据描绘155 
4.2.3
 数据标准化156 
4.2.4
 特性选择探索156 
4.2.5
 分类模型160 
 4.3 算法的综合应用——肿瘤标志物的研究161 
4.3.1
 样本选取161 
4.3.2
 癌胚抗原临床特征主题分析165 
4.3.3
 癌胚抗原临床特征规则分析169 
4.3.4
 癌胚抗原临床特征规则的比较分析173 
4.3.5
 癌胚抗原相关因子分析174 
4.3.6
 不同等级癌胚抗原组差异分析177 
 4.4 本章小结180 
5章 机器学习应用系统开发181 
 5.1 IMRS的设计思路181 
5.1.1
 IMRS核心功能设计182 
5.1.2
 IMRS主要功能184 
5.1.3
 IMRS的模块设计和应用实现185 
5.1.4
 IMRS的评估方法194 
 5.2 机器学习应用系统:IMRS技术设计199 
5.2.1
 对数据源的分析200 
5.2.2
 IMRS的总体设计203 
 5.3 IMRS异常侦测模型的开发210 
5.3.1
 异常侦测模型的功能展示211 
5.3.2
 技术开发要点214 
 5.4 IMRS特征抽取模型的开发221 
5.4.1
 特征抽取模型的功能展示221 
5.4.2
 技术开发要点221 
 5.5 IMRS的算法开发232 
5.5.1
 相关因子算法SRCF的实现232 
5.5.2
 朴素贝叶斯分类算法的实现237 
 5.6 本章小结241 
6章 机器学习系统应用(一):结构数据挖掘242 
 6.1 分布探索243 
6.1.1
 两维度聚类模型应用243 
6.1.2
 高维度聚类模型应用248 
 6.2 关系探索249 
6.2.1
 关联规则的应用249 
6.2.2
 特性选择的应用252 
 6.3 特征探索257 
6.3.1
 不稳定心绞痛的特征总结258 
6.3.2
 动脉硬化性心脏病的临床特征262 
 6.4 异常探索264 
6.4.1
 生理指标的异常侦测264 
6.4.2
 异常侦测模型的比较267 
 6.5 推测探索268 
 6.6 应用系统的高级应用269 
6.6.1
 异常侦测的高级用法270 
6.6.2
 关联规则的高级应用274 
 6.7 本章小结278 
7章 机器学习系统应用(二):非结构数据挖掘280 
 7.1 文本挖掘技术280 
7.1.1
 文本分词算法280 
7.1.2
 文本相似性算法283 
7.1.3
 文本聚类算法287 
7.1.4
 文本分类算法290 
 7.2 文本数据挖掘在医学上的应用293 
7.2.1
 医学自然文本挖掘的应用293 
7.2.2
 医学自然文本挖掘的方法294 
7.2.3
 医学自然文本挖掘的相关技术295 
7.2.4
 医学自然文本挖掘系统的实现295 
 7.3 文本分词的实现296 
7.3.1
 专业语料库与分词算法的结合297 
7.3.2
 专业分词库的自完善297 
 7.4 文本智能搜索298 
7.4.1
 文本相似性搜索298 
7.4.2
 文本相关性搜索299 
 7.5 文本聚类与分类的应用299 
7.5.1
 文本聚类应用300 
7.5.2
 文本分类应用302 
 7.6 文本主题提取应用303 
 7.7 本章小结305 
8章 基于机器学习的人工智能应用306 
 8.1 基于大数据和机器学习的人工智能306 
8.1.1
 广义大数据306 
8.1.2
 人工智能307 
8.1.3
 基于大数据的人工智能应用308 
8.1.4
 基于小数据的人工智能应用311 
 8.2 人工智能的应用:智能医学诊断系统314 
8.2.1
 智能诊断推理机314 
8.2.2
 临床智能诊断的实现319 
8.2.3
 临床智能诊断的应用321 
8.2.4
 临床智能诊断的验证:基于群体特征的个案临床评估323 
 8.3 混沌人工智能325 
8.3.1
 混沌理论325 
8.3.2
 人类大脑的混沌性327 
8.3.3
 大脑混沌性的应用328 
8.3.4
 人工智能大脑展望332 
 8.4 本章小结333

本文为作者原创,转载请注明出处。


0

阅读 收藏 喜欢 打印举报/Report
  

新浪BLOG意见反馈留言板 欢迎批评指正

新浪简介 | About Sina | 广告服务 | 联系我们 | 招聘信息 | 网站律师 | SINA English | 产品答疑

新浪公司 版权所有