SPSS数据准备:最优离散化
(2014-05-30 15:22:30)
标签:
spss数据准备最优离散化it |
分类: spss学习 |
一、最优离散化(转换-最优离散化)
示例。减少变量具有的不同值的数量具有多种用途,包括:◎其他过程的数据要求。离散化变量可作为分类变量用于需要分类变量的过程。例如,“交叉表”过程要求所有变量均为分类变量。◎数据隐私。报告离散化值而不是实际值可帮助保护数据源的隐私。“最优离散化”过程可指导块的选择。◎速度性能。有些过程在处理较少数量的不同值时更加有效。例如,使用离散化变量时“多项Logistic 回归”的速度会提高。◎揭示数据的完全分离或准完全分离。
最优离散化与可视离散化。“可视离散化”对话框提供了多种不使用向导变量创建块的自动方法。这些“未受监督”的规则对于生成描述统计(例如频率表)十分有用,但如果最终目标是生成预测模型,则“最优离散化”更好。
输出。该过程生成块的分割点以及每个离散化输入变量的描述统计的表。此外,您可以将新变量保存到包含离散化输入变量的离散化值的活动数据集中,并将离散化规则作为命令语法保存以便用于离散化新数据。
数据。此过程需要离散化输入变量是数值型刻度变量。向导变量应是分类变量,可以是字符串或数值。
二、选项(转换-最优离散化-选项)
1、预处理。“预离散化”具有许多不同值的离散化输入变量可缩短处理时间,而不会使最终块的质量发生大幅度下滑。块的最大数量为创建的块的数量设置了一个上限。这样,如果指定1000 作为最大值,但离散化输入变量的不同值的数量少于1000,则为离散化输入变量创建的预处理块的数量将等于离散化输入变量中不同值的数量。
2、稀疏填充的块。有时候,该过程可能会生成仅具有很少个案的块。下面的方案会删除这些伪分割点:
2.1、对于给定的变量,假定该算法找到了nfinal 个分割点,从而有nfinal+1 个块。对于块i= 2、……、nfinal(从值第二低的块到值第二高的块),计算其中sizeof(b) 是块中的个案数。
2.2、当此值小于指定的合并阈值时, 被认为是稀疏填充的,并将与或合并,具体取决于哪一个具有较低的类信息熵。该过程仅穿过这些块一次。
3、块端点。此选项指定如何定义区间下限。因为该过程自动确定分割点的值,所以这主要是偏好的问题。
4、第一个(最低)块/最后一个(最高)块。这些选项指定如何定义每个离散化输入变量的最小和最大分割点。通常情况下,该过程假设离散化输入变量可采用实数线上的任何值,但是,如果由于某些理论或实际的原因需要限制该范围,则可通过最低值/最高