全站文章列表 | 收藏本站 | RSS订阅 SPSS教程|答疑|案例|训练营
SPSS教程SPSS聚类分析:用于筛选聚类变量的一套方法

SPSS聚类分析:用于筛选聚类变量的一套方法
时间:2013年09月02日 | 栏目:SPSS教程 | 评论:7 | 点击: 30122

  • 原创

    聚类分析是常见的数据分析方法之一,主要用于市场细分、用户细分等领域。利用SPSS进行聚类分析时,用于参与聚类的变量决定了聚类的结果,无关变量有时会引起严重的错分,因此,筛选有效的聚类变量至关重要。

    案例数据源:

    SPSS自带数据文件plastic.sav中记录了20中塑料的三个特征,分别是tear_res(抗拉力)、gloss(光滑度)、opacity(透明度),相关经验表面这20中塑料可以分为3个种类,如果用这三个变量进行聚类,请判断和筛选有效聚类变量。

    一套筛选聚类变量的方法

     image

    一、盲选

    将根据经验得到的、现有的备选聚类变量全部纳入模型,暂时不考虑某些变量是否不合适。本案例采用SPSS系统聚类方法。对话框如下:

     image

    统计量选项卡:聚类成员选择单一方案,聚类数输入数字3

    绘制选项卡:勾选树状图;

    方法选项卡:默认选项,不进行标准化;

    保存选项卡:聚类成员选择单一方案,聚类数输入数字3

    二、初步聚类

    这是盲选得到的初步聚类结果,并且在数据视图我们可以看到已经自动生成了一个聚类结果变量,这个变量非常有用。

    image

    三、方差分析

    是不是每一个纳入模型的聚类变量都对聚类过程有贡献?利用已经生成的初步聚类结果,我们可以用一个单因素方差分析来判断分类结果在三个变量上的差异是否显著,进而判断哪些变量对聚类是没有贡献的。

     image

    分析——比较均值——单因素方差分析:

    选项选项卡:勾选均值图

     image

    由方差分析我们很明确的得知,纳入模型的三个聚类变量,其中只有“透明度”指标在各个分类上有显著的差异,也就是说分类有效果,让每个分类的差异很大,而两外两个变量则在三个分类上没有显著差异,没有很好的类别区分度,所以,我们可以认为,这两个变量对聚类无作用或者无贡献,可考虑踢出模型。

    我们还想从可视化的角度来查看和判断,单因素方差分析为我们提供了均值图,可惜,这三个图却最容易误导我们的判断,因为spss在自动生产均值图时为每一个变量单独制图,而且分配不同的纵轴坐标,导致每个图看起来都有非常大的差异,从视觉上迷惑我们做出错误的判断。

     image

    这里需要改进!

    四、均值描述

    为改进以上SPSS默认选项的不足之处,我们需要自己生成三个变量在不同类别上的均值,means过程可以帮助到我们。

     image

    从数字上来看,抗拉力(6.86.77.1)、光滑度(9.39.49.2)两个指标在三个类别上并没有多大的差异,而对聚类有贡献的透明度指标在不同类别上区分度非常明显。

     image

    五、多线均值图

    克服纵轴刻度的方法是将这三个指标放在同一个坐标轴上进行对比,也就是制作一个多线均值图。

     image

    此时,结果已经一目了然了。

    综上,我们可以将抗拉力、光滑度两个指标从模型中剔除,只留下透明度一个指标再进行聚类。

     image

    我们发现,前后两次聚类的结果一模一样,用一个指标可以代替以前三个指标的进行聚类。

    我们这样做的意义何在?如果能将这些整理成为规则,形成经验,那我们就可以不用测量抗拉力和光滑度这两个指标了,你不觉得多测量两个指标成本会增加吗?

    文章思路参考自:文彤老师《SPSS11高级教程》

     [Spss K-means聚类分析案例——某移动公司客户细分模型

    同类荐读:聚类分析  SPSS教程 

    本文来自:数据小兵博客

    本文地址:http://datasoldier.net/post/shaixuan.html

    版权说明:如非注明,本站文章均为 数据小兵博客 原创,转载请注明出处和附带本文链接。

  • 已有7位网友发表了看法:

    1#愚鼠临疯  2013-09-23 17:28:31 回复该评论
    兵哥好 假如能提供数据源让读者自己练习就好啦 谢谢你的教程 很有帮助
    1#datasoldier  2013-09-23 21:34:56 回复该评论
    需要的话,留下邮箱, 我发送过去
    2#datasoldier  2013-09-23 21:33:33 回复该评论
    需要源数据的话,请留下邮箱,我发送
    2#billy  2017-09-15 13:19:57 回复该评论
    你好,希望作者能把源数据发到邮箱
    2#billy  2017-09-15 13:21:16 回复该评论
    邮箱是271532022@qq.com。
    3#datasoldier  2013-09-23 21:34:56 回复该评论
    需要的话,留下邮箱, 我发送过去
    4#贺套障42  2015-10-21 09:45:15 回复该评论
    [思考]
    5#淹慕参05  2015-10-30 03:43:48 回复该评论
    地球是运动的,一个人不会永远处在倒霉的位置。

    发表评论

    必填

    选填

    选填

    必填

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。