手把手丨我们在UCL找到了一个糖尿病数据集，用机器学习预测糖尿病_一只开心的小燕子

http://blog.sina.com.cn/u/5574183074

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

手把手丨我们在UCL找到了一个糖尿病数据集，用机器学习预测糖尿病

(2018-01-08 15:31:59)

原文链接：http://click.aliyun.com/m/39300/

摘要：根据美国疾病控制预防中心的数据，现在美国1/7的成年人患有糖尿病。但是到2050年，这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集，希望可以通过这一数据集，了解如何利用机器学习来帮助我们预测糖尿病，让我们开始吧！数据集github链接：https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/diabetes.csv 数据糖尿病数据集可从UCI机器学习库中获取并下载。

根据美国疾病控制预防中心的数据，现在美国1/7的成年人患有糖尿病。但是到2050年，这个比例将会快速增长至高达1/3。我们在UCL机器学习数据库里一个糖尿病数据集，希望可以通过这一数据集，了解如何利用机器学习来帮助我们预测糖尿病，让我们开始吧！

数据集github链接：https://github.com/susanli2016/Machine-Learning-with-Python/blob/master/diabetes.csv

数据

糖尿病数据集可从UCI机器学习库中获取并下载。

https://yqfile.alicdn.com/d4858c5db9582633b5345bbfd4f8cfca12d39c1e.png

特征（怀孕次数，血糖，血压，皮脂厚度，胰岛素，BMI身体质量指数，糖尿病遗传函数，年龄，结果）：

https://yqfile.alicdn.com/dbf88a2a4748c473ff890266b7407fa2274aca52.png

糖尿病数据集由768个数据点组成，各有9个特征：

https://yqfile.alicdn.com/a1ab5bd0b3f6e4f45c3808f92e19fb887f61343c.png

“结果”是我们将要预测的特征，0意味着未患糖尿病，1意味着患有糖尿病。在768个数据点中，500个被标记为0,268个标记为1。

https://yqfile.alicdn.com/5e4b68850f0f3f3381e76c3b7de14cfd09242445.png

KNN算法

k-NN算法几乎可以说是机器学习中最简单的算法。建立模型只需存储训练数据集。而为了对新的数据点做出预测，该算法会在训练数据集中找到与其相距最近的数据点——也就是它的“近邻点”。

首先，让我们研究一下是否能够确认模型的复杂度和精确度之间的关系：

https://yqfile.alicdn.com/2c2cbfd821f1d4e890c16e6e58f4d3b27fb7482c.png

上图展示了训练集和测试集在模型预测准确度（y轴）和近邻点个数设置（x轴）之间的关系。如果我们仅选择一个近邻点，那么训练集的预测是绝对正确的。但是当更多的近邻点被选入作为参考时，训练集的准确度会下降，这表明了使用单一近邻会导致模型太过复杂。这里的最好方案可以从图中看出是选择9个近邻点。

图中建议我们应该选择n_neighbors=9，下面给出：

https://yqfile.alicdn.com/2684defddc0b8618303fb68da7f46cb12a333c17.png

K-NN分类的准确度在训练集中为：0.7

K-NN分类的准确度在测试集中为：0.7

逻辑回归

逻辑回归是最常见的分类算法之一。

https://yqfile.alicdn.com/ec79abe7126d0d1c5d565db72d5fd55a57533c77.png

训练集准确度：0.781

测试集准确度：0.771

正则化参数C=1（默认值）的模型在训练集上准确度为78%，在测试集上准确度为77%。

https://yqfile.alicdn.com/154e2a59eaeb7f4354e57578677112cbcb7a04ba.png

训练集准确度：0.785

测试集准确度：0.766

而将正则化参数C设置为100时，模型在训练集上准确度稍有提高但测试集上准确度略降，说明较少正则化和更复杂的模型并不一定会比默认参数模型的预测效果更好。

因此，我们选择默认值C=1。

让我们用可视化的方式来看一下用三种不同正则化参数C所得模型的系数。

更强的正则化(C = 0.001)会使系数越来越接近于零。仔细地看图，我们还能发现特征“DiabetesPedigreeFunction”（糖尿病遗传函数）在 C=100, C=1 和C=0.001的情况下, 系数都为正。这表明无论是哪个模型，DiabetesPedigreeFunction（糖尿病遗传函数）这个特征值都与样本为糖尿病是正相关的。

https://yqfile.alicdn.com/6c8af43ffa8a133176404df52c6d8dcef4601e0c.png

决策树

https://yqfile.alicdn.com/ce7d8c965a4f531b666edf32940fa898f083f064.png

训练集准确度：1.000

测试集准确度：0.714

训练集的准确度可以高达100%，而测试集的准确度相对就差了很多。这表明决策树是过度拟合的，不能对新数据产生好的效果。因此，我们需要对树进行预剪枝。

我们设置max_depth=3，限制树的深度以减少过拟合。这会使训练集的准确度降低，但测试集准确度提高。

https://yqfile.alicdn.com/b11d27afb23c55fca87c1bdb1de46c0348586474.png

训练集准确度：0.773

测试集准确度：0.740

决策树中特征重要度

决策树中的特征重要度是用来衡量每个特征对于预测结果的重要性的。对每个特征有一个从0到1的打分，0表示“一点也没用”，1表示“完美预测”。各特征的重要度加和一定是为1的。