SAS EM分组处理_bicloud

f表示划分的数目，即f折叠交叉验证。在数据转换节点中，新变量的角色可以设置为segment，从而允许立即进行交叉验证。再次，在分组处理起始节点对话框设置交叉验证，同时产生每个划分的一个完全选择。譬如，如果设置划分ID为1，则所有的划分都剔除掉为1 的分组，从而进行模型训练。为每次模型的训练提供足够大的样本。

https://pfztpq.bay.livefilestore.com/y1mtNRa-z2sO-lfRXXwoO8zQH-Z6samr1_jq12tEwnEaSIiX9Ye1C6FMSrqpj6bZ4RHGApbLt3wX6ShF-n-SapQycSGqo5pXUXBQT6qzr6Fb1wFfkkylS1SFknj1ogYoXxsCc8O4wCt7N5wURnCUL0rSw/clip_image032_thumb.jpg

10折叠交叉验证结果

https://pfztpq.bay.livefilestore.com/y1mDOiZw6RpitnqquPrDxrV_cr9DpIGcKy3S9-Nkb0mInak1ZEnrlfwpKaPisPp24XpS4um08X_BMwyNZmfDYxCoddNQvwZ-7vTtHgfwuocpHSYT_7cJ6jm2eVrrA4kSIuBACc10DqZuu6K72K0WV0KuQ/clip_image034_thumb.jpg

SAS EM还提供了很多图形化的功能用于分析模型的性能。

https://pfztpq.bay.livefilestore.com/y1m6d1M89kVeg9qnig5wwofRMfNqd5MY48DQXaxGDOYq_gAj122rA9zxaHTGPfkXygZu7grcKmYL0ButGPUQZ24vD8xVVDOqXcUBWptS3yHfWqrEucX92P58lj2mQHlQjHI7cTB0sFS4xjedVfguENcWA/clip_image036_thumb.jpg

组合模型-使模型更加稳定

SAS EM中的分组处理功能提供两种自动的组合算法模型，bagging 和 boosting。这些是用来提高分类和预测模型准确性和稳定性的机器学习组合算法。这两种方法的主要不同在于每个建模步骤中选择子数据集的抽样方法不同。

Bagging采用一种基于随机抽样的方法创建n个样本的非加权重抽样。每个观测值都有相同的机会被加入到模型训练集中。因此，每个步骤和前面的步骤都是相互独立的，可以进行并行处理。模型的最终输出是是通过对每个模型迭代产生的概率进行平均而产生的。

Boosting通过执行加权重抽样技术来改进模型的准确性，主要集中关注那些更难分类和预测的观察值。在每次迭代完成后，抽样权重是根据模型结果准确性与观测之间的关系进行调整。正确的分类观测将得到较低的抽样权重，而不正确的分类观测值将得到较高的抽样权重。因此，在下一次迭代过程中，将从那些误分类的观测中抽取样本。这些将导致依赖于算法的迭代次数和处理顺序。同样，最终模型结果的评分需要根据训练算法的顺序来进行处理。模型结果是根据分类器的加权投票顺序。

SAS EM创建模型的最终评分节点是根据累积每次迭代产生的评分之和进行组合而产生的。因此，整个评分节点是根据分组节点运行而得到的。组合算法的缺点就是损失了模型结果的解释性和透明性。

https://pfztpq.bay.livefilestore.com/y1mAnTlMCR0RonCh_1gWnQf_hi00YyFbnYOERZKTifeJbSx0R7RV0_mRHuoMgwzE7U-XJj9lFAgqeMEdcd8dG0D-9UpdEbhtitbYJugwQpbPYbmBNFmtxk0KA3HT0tGyhtwE9fqoPNBGX84pTORk4N3Rg/clip_image038_thumb.jpg

袋方法和步进方法在SAS EM中通过分组处理功能很容易实现。用户通过在起始分组的对话框中选择代表模型的方法，一旦抽样属性被定义为bagging，算法就能够自动运行并且产生结果，显示在分组终节点的浏览器中。对于boosting来说，用户仅仅需要定义迭代次数。

https://pfztpq.bay.livefilestore.com/y1mLpNN5cGdVn4N-k_9W6kkcZVTRq247V2Jz5OX5VEoVgHlPo1aoB3-iAXLVXox8iSGI0jRjB4x6h8Z2LcO1M8szvJewUnkqtRyHDk2OfslCQpp6FxQ20vsAzzH6gkIdn541_Fccs2cQGPqCKpJpD28yQ/clip_image040_thumb.jpg

提升图显示了分类模型的训练和验证数据的结果。统计图显示了每个迭代模型的统计误差，并且可以洞察模型的稳定性。

总结：SAS EM中的分组处理功能提供细分或者组合训练模型的不同方法，从而使用户容易选择最有效的过程。在相同的数据集上，模型你给可以通过对多个目标组合起来进行训练。模型的稳定性可以很容易地通过交叉验证算法进行测试，而且模型的稳定性也可以通过组合算法技术来提高。

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：数据挖掘团队

后一篇：运用proc means VS. proc sql计算链接

新浪BLOG意见反馈留言板　欢迎批评指正