SPSS数据准备：最优离散化_化云

http://blog.sina.com.cn/u/1491537632

首页博文目录关于我

个人资料

微博

加好友发纸条

写留言加关注

博客等级：
博客积分：

博客访问：
关注人气：
获赠金笔：0支
赠出金笔：0支
荣誉徽章：

正文字体大小：大中小

SPSS数据准备：最优离散化

(2014-05-30 15:22:30)

标签：

spss

数据准备

最优离散化

it

分类： spss学习

一、最优离散化（转换-最优离散化）

“最优离散化”过程通过将每个变量的值分布到块中离散化一个或多个尺度变量（因此称为离散化输入变量）。块的构成根据“监督”离散化过程的分类向导变量得以最优化。然后，可以使用块而非原始数据值进行进一步的分析。

示例。减少变量具有的不同值的数量具有多种用途，包括：◎其他过程的数据要求。离散化变量可作为分类变量用于需要分类变量的过程。例如，“交叉表”过程要求所有变量均为分类变量。◎数据隐私。报告离散化值而不是实际值可帮助保护数据源的隐私。“最优离散化”过程可指导块的选择。◎速度性能。有些过程在处理较少数量的不同值时更加有效。例如，使用离散化变量时“多项Logistic 回归”的速度会提高。◎揭示数据的完全分离或准完全分离。

最优离散化与可视离散化。“可视离散化”对话框提供了多种不使用向导变量创建块的自动方法。这些“未受监督”的规则对于生成描述统计（例如频率表）十分有用，但如果最终目标是生成预测模型，则“最优离散化”更好。

输出。该过程生成块的分割点以及每个离散化输入变量的描述统计的表。此外，您可以将新变量保存到包含离散化输入变量的离散化值的活动数据集中，并将离散化规则作为命令语法保存以便用于离散化新数据。

数据。此过程需要离散化输入变量是数值型刻度变量。向导变量应是分类变量，可以是字符串或数值。

二、选项（转换-最优离散化-选项）

1、预处理。“预离散化”具有许多不同值的离散化输入变量可缩短处理时间，而不会使最终块的质量发生大幅度下滑。块的最大数量为创建的块的数量设置了一个上限。这样，如果指定1000 作为最大值，但离散化输入变量的不同值的数量少于1000，则为离散化输入变量创建的预处理块的数量将等于离散化输入变量中不同值的数量。

2、稀疏填充的块。有时候，该过程可能会生成仅具有很少个案的块。下面的方案会删除这些伪分割点：

2.1、对于给定的变量，假定该算法找到了nfinal 个分割点，从而有nfinal+1 个块。对于块i= 2、……、nfinal（从值第二低的块到值第二高的块），计算其中sizeof(b) 是块中的个案数。

2.2、当此值小于指定的合并阈值时，被认为是稀疏填充的，并将与或合并，具体取决于哪一个具有较低的类信息熵。该过程仅穿过这些块一次。

3、块端点。此选项指定如何定义区间下限。因为该过程自动确定分割点的值，所以这主要是偏好的问题。

4、第一个(最低)块/最后一个(最高)块。这些选项指定如何定义每个离散化输入变量的最小和最大分割点。通常情况下，该过程假设离散化输入变量可采用实数线上的任何值，但是，如果由于某些理论或实际的原因需要限制该范围，则可通过最低值/最高

阅读┊ 收藏 ┊ 喜欢 ▼ ┊打印┊举报/Report

前一篇：SPSS数据准备：标识异常个案

后一篇：SPSS直销分析：RFM分析

新浪BLOG意见反馈留言板　欢迎批评指正