SPSS常用基础操作(2)——连续变量离散化

2023-02-25 15:21:14 文档大全网 [ 字体：小中大 ] [ 阅读： ]

【#文档大全网# 导语】以下是®文档大全网的小编为您整理的《SPSS常用基础操作(2)——连续变量离散化》，欢迎阅读！
离散,变量,常用,连续,操作
首先说一下什么是离散化以及连续变量离散化的必要性。

离散化是把无限空间中无限的个体映射到有限的空间中去，通俗点讲就是把连续型数据切分为若干“段”，也称bin，离散化在数据分析中特别是数据挖掘中被普遍采用，主要原因有：

1.算法需要。有些数据挖掘算法不能直接使用连续变量，必须要离散化之后才能纳入计算，在数据挖掘软件中，表面上看可以直接使用连续变量进行计算，实际上在软件后台已经对其进行了离散化预处理。

2.降低异常数据的敏感度，使模型更加稳定。我们知道极端值和异常值会使模型参数拟合的不准确，误差过大，影响效度，而离散化，特别是等距离散，可以有效的降低异常数据对模型的影响。道理很简单，因为离散过程也将异常数据纳入进来进行离散，最后结果使其看起来不再那么“异常”。

3.有利于对非线性关系进行诊断和描述：对连续型数据进行离散处理后，自变量和目标变量之间的关系变得清晰化。如果两者之间是非线性关系，可以重新定义离散后变量每段的取值，如采取0，1的形式，由一个变量派生为多个哑变量，分别确定每段和目标变量间的联系。这样做，虽然减少了模型的自由度，但可以大大提高模型的灵活度。即使在连续型自变量和目标变量之间的关系比较明确，例如可以用直线描述的情况下，对自变量进行离散处理也有若干优点。一是便于模型的解释和使用，二是可以增加模型的区别能力。

======================================================= 离散分为等距离散、等频离散、优化离散等

等距离散：

将连续型变量的取值范围均匀划成n等份，每份的间距相等。例如，客户订阅刊物的时间是一个连续型变量，可以从几天到几年。采取等距切分可以把1年以下的客户划分成一组，1-2年的客户为一组，2-3年为一组..，以此类分，组距都是一年

等频离散：

把观察点均匀分为n等份，每份内包含的观察点数相同。还取上面的例子，设该杂志订户共有5万人，等频分段需要先把订户按订阅时间按顺序排列，排列好后可以按5000人一组，把全部订户均匀分为十段

优化离散：

需要把自变量和目标变量联系起来考察。切分点是导致目标变量出现明显变化的折点。常用的检验指标有卡方，信息增益，基尼指数，或WOE(要求目标变量是两元变量)等距和等频在大多数情况下导致不同的结果。等距可以保持数据原有的分布，段落越多对数据原貌保持得越好。等频处理则把数据变换成均匀分布，但其各段内观察值相同这一点等距离散无法做到。

离散连续型数据还可以按照需要而定。比如，当营销的重点是19-24岁的大学生消费群体时，就可以把这部分人单独划出。

==========================================

虽然离散化有很多好处，但是也要付出损失数据信息的代价，连续数据都是定比、定距类型、而离散数据都是定序、定类类型，数据从高级类型向低级类型转化，必然会损失部分信息。从另一个角度说，对连续型数据进行分段后，同一个段内的观察点之间的差异便消失了。在实际分析中，需要权衡这一点。

==========================================

SPSS对数据的离散化处理有两个过程，分别是可视离散和最优离散，都在分析菜单中，区别是可视离

散可以自己定义分割点，据此实现等距或等频离散。而最优离散需要另外定义一个分类变量，据此分类变量进行离散，以最优离散为例