《Python数据挖掘入门与实践》【PDF】

标签:
python推荐书单python数据挖掘入门与实践电子书 |
分类: Python推荐书单 |

内容简介
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。
作者简介
Robert Layton
计算机科学博士,网络犯罪问题和文本分析方面的专家。多年来一直热衷于Python编程,参与过scikit-learn库等很多开源库的开发,曾担任2014年度“谷歌编程之夏”项目导师。他曾与全球几大数据挖掘公司密切合作,挖掘真实数据并研发相关应用。他的公司dataPipeline为多个行业提供数据挖掘和数据分析解决方案。
译者简介
杜春晓
英语语言文学学士,软件工程硕士。其他译著有《电子达人——我的第一本Raspberry Pi入门手册》《Python数据分析》。
目录
第1章
开始数据挖掘之旅 1
1.1
数据挖掘简介 1
1.2
使用Python和IPython Notebook 2
1.2.1
安装Python 2
1.2.2
安装IPython 4
1.2.3
安装scikit-learn库 5
1.3
亲和性分析示例 5
1.3.1
什么是亲和性分析 5
1.3.2
商品推荐 6
1.3.3
在NumPy中加载数据集 6
1.3.4
实现简单的排序规则 8
1.3.5
排序找出最佳规则 10
1.4
分类问题的简单示例 12
1.5
什么是分类 12
1.5.1
准备数据集 13
1.5.2
实现OneR算法 14
1.5.3
测试算法 16
1.6
小结 18
第2章
用scikit-learn估计器分类 19
2.1
scikit-learn估计器 19
2.1.1
近邻算法 20
2.1.2
距离度量 20
2.1.3
加载数据集 22
2.1.4
努力实现流程标准化 24
2.1.5
运行算法 24
2.1.6
设置参数 25
2.2
流水线在预处理中的应用 27
2.2.1
预处理示例 28
2.2.2
标准预处理 28
2.2.3
组装起来 29
2.3
流水线 29
2.4
小结 30
第3章
用决策树预测获胜球队 31
3.1
加载数据集 31
3.1.1
采集数据 31
3.1.2
用pandas加载数据集 32
3.1.3
数据集清洗 33
3.1.4
提取新特征 34
3.2
决策树 35
3.2.1
决策树中的参数 36
3.2.2
使用决策树 37
3.3
NBA比赛结果预测 37
3.4
随机森林 41
3.4.1
决策树的集成效果如何 42
3.4.2
随机森林算法的参数 42
3.4.3
使用随机森林算法 43
3.4.4
创建新特征 44
3.5
小结 45
第4章
用亲和性分析方法推荐电影 46
4.1
亲和性分析 46
4.1.1
亲和性分析算法 47
4.1.2
选择参数 47
4.2
电影推荐问题 48
4.2.1
获取数据集 48
4.2.2
用pandas加载数据 49
4.2.3
稀疏数据格式 49
4.3
Apriori算法的实现 50
4.3.1
Apriori算法 51
4.3.2
实现 52
4.4
抽取关联规则 54
4.5
小结 60
第5章
用转换器抽取特征 62
5.1
特征抽取 62
5.1.1
在模型中表示事实 62
5.1.2
通用的特征创建模式 64
5.1.3
创建好的特征 66
5.2
特征选择 67
5.3
创建特征 71
5.4
创建自己的转换器 75
5.4.1
转换器API 76
5.4.2
实现细节 76
5.4.3
单元测试 77
5.4.4
组装起来 79
5.5
小结 79
第6章
使用朴素贝叶斯进行社会媒体挖掘 80
6.1
消歧 80
6.1.1
从社交网站下载数据 81
6.1.2
加载数据集并对其分类 83
6.1.3
Twitter数据集重建 87
6.2
文本转换器 90
6.2.1
词袋 91
6.2.2
N元语法 92
6.2.3
其他特征 93
6.3
朴素贝叶斯 93
6.3.1
贝叶斯定理 93
6.3.2
朴素贝叶斯算法 94
6.3.3
算法应用示例 95
6.4
应用 96
6.4.1
抽取特征 97
6.4.2
将字典转换为矩阵 98
6.4.3
训练朴素贝叶斯分类器 98
6.4.4
组装起来 98
6.4.5
用F1值评估 99
6.4.6
从模型中获取更多有用的特征 100
6.5
小结 102
...
电子书下载地址:https://cangshuzhe.ctfile.com/fs/3990681-234555677
源代码下载地址:https://cangshuzhe.ctfile.com/fs/3990681-289385424