全站文章列表 | 收藏本站 | RSS订阅 SPSS教程|答疑|案例|训练营
SPSS案例Spss K-means聚类分析案例——某移动公司客户细分模型

Spss K-means聚类分析案例——某移动公司客户细分模型
时间:2013年05月26日 | 栏目:SPSS案例 | 评论:19 | 点击: 43809


  • 聚类分析在各行各业应用十分常见,而顾客细分是其最常见的分析需求,顾客细分总是和聚类分析挂在一起。

    顾客细分,关键问题是找出顾客的特征,一般可从顾客自然特征和消费行为入手,在大型统计分析工具出现之前,主要是通过两种方式进行“分群别类”,第一种,用单一变量进行划段分组,比如,以消费频率变量细分,即将该变量划分为几个段,高频客户、中频客户、低频客户,这样的状况;第二种,用多个变量交叉分组,比如用性别和收入两个变量,进行交叉细分。

    事实是,我们总是希望考虑多方面特征进行聚类,这样基于多方面综合特征的客户细分比单个特征的细分更有意义,这正是spss聚类分析可以做到的,以下通过k-means聚类分析做一个小小案例来展示。


     
    【数据来源及分析内容】

     《SPSS统计分析高级教程》telco.sav,是反映移动电话用户使用手机情况的数据集。包含7个变量:用户编号、工作日上班时间电话时长、工作日下班时间电话时长、周末电话时长、国际电话时长、总通话时长、平均每次通话时长,现希望对移动用户细分,了解他们不同的手机消费习惯。根据研究调研及经验,认为移动用户应分为5个主要消费群体。数据分析工具:spss,参考教程:张文彤,《 SPSS12 统计分析高级教程》。

     
    【数据分析流程】
    【获取数据】
    【数据预处理】

    现在存储于后台的数据太多了,以前做项目担心没有真实可靠的数据,现在这个问题没有那么复杂,但数据太多却引发了其他问题。辛苦采集到的数据口径不一致,存储格式不同,不符合数据分析要求还有待派生新的变量。

    这些过程看似简单却非常有必要!

    仅仅预处理以上这些问题还不够,当数据分析方法复杂时,我们还需对采集的数据进行筛选构成小的数据集,对于数据集中变量的分布、缺失、描述统计指标进行一定程度的分析。

     

     
    【数据分析】

    K-means聚类也称快速聚类,可以用于大量数据进行聚类的情形。在开始聚类之前,需要分析者自己制定类数目,并不是一次指定,可以经过多轮反复分析,根据实际情况最终判定最优类的数目。 K-means聚类是采用计算距离的方式测度变量间的亲疏程度,距离直接影响最终的结果,因此慎重审核数据质量。

     
     
    【分析结论】

    做一个数据分析的项目,不能不下结论!

    雷声大,雨点小的事情,作为数据分析师千万要避免发生。提交数据分析报告,对分析下结论,对业务问题进行及时解决,养成这个良好的习惯。

    参考自:

    《SPSS12高级教程》,张文彤

    《Clementine数据挖掘方法及应用》,薛薇

    采用聚类分析的数据挖掘技术进行电信市场客户分群

    电子商城的用户分析运用——客户细分(Customer Segmentation)的相关问题列表!


    同类荐读:聚类分析  K均值  客户细分  SPSS  SPSS教程 

    本文来自:数据小兵博客

    本文地址:http://datasoldier.net/post/kmeans.html

    版权说明:如非注明,本站文章均为 数据小兵博客 原创,转载请注明出处和附带本文链接。

  • 已有19位网友发表了看法:

    1#hu  2013-06-01 12:55:03 回复该评论
    你好 请问数据探索,预处理中的每个变量相关散点图矩阵是怎么做出来的?是用SPSS吗?具体功能在哪里
    1#datasoldier  2013-06-08 18:50:06 回复该评论
    用spss的散点图功能可以实现
    1#SueSu  2016-10-05 03:54:19 回复该评论
    SPSS-Analyze-Classify-K-Means
    2#datasoldier  2013-06-08 18:50:06 回复该评论
    用spss的散点图功能可以实现
    3#young  2013-07-24 11:36:52 回复该评论
    通话占66.6%是否有问题,比例总和已经>100%
    3#datasoldier  2013-07-24 13:08:49 回复该评论
    但从变量来看,上班通话时长和国际通话时长这里面应该有部分重复了,因为源数据里面没有其他的筛选或者辨识的变量,导致这里会有超出100.此例主要看聚类过程,当然,您提到的这个问题非常的严肃,在数据质量这块需要重点观察。感谢斧正。
    4#datasoldier  2013-07-24 13:08:49 回复该评论
    但从变量来看,上班通话时长和国际通话时长这里面应该有部分重复了,因为源数据里面没有其他的筛选或者辨识的变量,导致这里会有超出100.此例主要看聚类过程,当然,您提到的这个问题非常的严肃,在数据质量这块需要重点观察。感谢斧正。
    5#友情链接  2013-08-11 17:48:39 回复该评论
    我觉得是用Clementine做的,方法原理都比较简单。希望博主把,详细的参数分享。还有实施,过程。谢谢
    5#datasoldier  2013-08-19 13:13:55 回复该评论
    这个案例中,clementine只做了源数据的诊断,判断了数据的质量。
    6#datasoldier  2013-08-19 13:13:55 回复该评论
    这个案例中,clementine只做了源数据的诊断,判断了数据的质量。
    7#rufuce  2013-09-27 20:44:47 回复该评论
    请问得到聚类分群以后,能不能得到分群的规则?你这里使用的是较小数据的样本数据,如果想把这样的聚类分群的规则应用的全量客户上去怎么办呢 ?总不会把全量数据重新跑一次分群吧?有没有方法获取的分群的量化规则,比如分群1 总通话时长大于多少小于多少 ,便于分群结果落地
    7#datasoldier  2013-09-30 22:10:39 回复该评论
    首先非常赞赏这个问题,对于理解聚类分析非常有帮助,也有高度。
    您的问题,引申出与聚类分析平行的另外一个方法,就是判别分析。
    聚类分析后,我们经过综合判断,将得到一个相对符合实际的分类,这就是已知分类的训练样本,通过这个样本可以得到类别的规则,规律,然后用于预测其他数据。
    具体的情况可以参照判别分析,
    博客也计划与后期推出判别分析的文章。
    再次感谢你的问题。
    8#datasoldier  2013-09-30 22:10:39 回复该评论
    首先非常赞赏这个问题,对于理解聚类分析非常有帮助,也有高度。
    您的问题,引申出与聚类分析平行的另外一个方法,就是判别分析。
    聚类分析后,我们经过综合判断,将得到一个相对符合实际的分类,这就是已知分类的训练样本,通过这个样本可以得到类别的规则,规律,然后用于预测其他数据。
    具体的情况可以参照判别分析,
    博客也计划与后期推出判别分析的文章。
    再次感谢你的问题。
    9#rufuce  2013-10-26 11:39:03 回复该评论
    你的意思是把分群结果(cluster1-6)作为一个变量,加上做分群时的其他变量一起再做判别分析吗?是否可以使用类中心的距离得到规则,还请详细指点,谢谢。
    9#datasoldier  2013-11-01 23:21:07 回复该评论
    聚类分析一个重要的环节是对聚类结果进行描述,根据得到的分类,参照统计描述的方法,查看每一类的特征,进行类别的定义,相当于是在定义一个规则,但这个规则和决策树中的规则还不一样,我觉得不易直接用于判断分类;
    将聚类分析得到的最终类中心结果,以及经过实践检验的其他典型分类结果保存,作为一个数据集,然后将新的需要判断分类的数据作为一个数据集,两个数据集合并后,可通过判别分析,根据距离的算法,判断分类。
    10#datasoldier  2013-11-01 23:21:07 回复该评论
    聚类分析一个重要的环节是对聚类结果进行描述,根据得到的分类,参照统计描述的方法,查看每一类的特征,进行类别的定义,相当于是在定义一个规则,但这个规则和决策树中的规则还不一样,我觉得不易直接用于判断分类;
    将聚类分析得到的最终类中心结果,以及经过实践检验的其他典型分类结果保存,作为一个数据集,然后将新的需要判断分类的数据作为一个数据集,两个数据集合并后,可通过判别分析,根据距离的算法,判断分类。
    11#端盘的服务生  2014-12-10 15:49:20 回复该评论
    求教,实际操作中很多变量是序数型、离散型的,如:性别,VIP等级,业务类别/渠道,职业类别等,请问如何纳入聚类变量中,做成哑变量么?如果做成哑变量,在用相关性筛选变量的时候,也用spearman相关系数么?
    11#数据小兵  2014-12-13 12:57:51 回复该评论
    需要哑变量处理了。
    11#数据小兵  2014-12-13 13:00:31 回复该评论
    分类变量做相关性又是另外一回事了,这个主要靠经验来筛选。
    11#最帅数据分析师  2015-09-22 09:14:26 回复该评论
    我们是使用 spss modeler做的,这样做起来 就不需要考虑太多 因素。spss不太适合处理大数据,比如百万以上的数据。
    11#数据小兵  2015-09-22 23:16:09 回复该评论
    modeler在这方面非常棒
    12#数据小兵  2014-12-13 12:57:51 回复该评论
    需要哑变量处理了。
    13#数据小兵  2014-12-13 13:00:31 回复该评论
    分类变量做相关性又是另外一回事了,这个主要靠经验来筛选。
    14#最帅数据分析师  2015-09-22 09:14:26 回复该评论
    我们是使用 spss modeler做的,这样做起来 就不需要考虑太多 因素。spss不太适合处理大数据,比如百万以上的数据。
    14#数据小兵  2015-09-22 23:16:09 回复该评论
    modeler在这方面非常棒
    15#数据小兵  2015-09-22 23:16:09 回复该评论
    modeler在这方面非常棒
    16#我是同性恋  2015-10-05 14:19:02 回复该评论
    <img src="http://img.t.sinajs.cn/t35/style/images/common/face/ext/normal/91/h_org.gif" alt="[黑线]" title="[黑线]" class="ds-smiley" />
    17#清水裕子  2015-10-21 15:47:47 回复该评论
    [伤心]
    18#饺馁尉83  2015-10-29 19:05:12 回复该评论
    [帅爆]

    发表评论

    必填

    选填

    选填

    必填

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。