全站文章列表 | 收藏本站 | RSS订阅 SPSS教程|答疑|案例|训练营
SPSS案例分类变量的相关分析

分类变量的相关分析
时间:2013年08月01日 | 栏目:SPSS案例 | 评论:1 | 点击: 7607


  • 相关分析 简单吗?提起相关分析,很多人的第一意识就是简单,因为它是统计的基础操作,许多分析方法都涉及到相关。其实不然,我们经常提到的仅是连续变量之间的相关,那么,类别变量的相关分析要如何去做呢? 

    案例数据说明

    有一份电信用户数据,其中包含2个分类变量:套餐类型和是否流失。套餐类型变量有4个分类值,分别为基础服务、电子服务、附加服务、全服务;是否流失变量包括流失Yes及未流失No。现在我们需要分析分类变量“套餐类型”和“是否流失”之间的关系。


    图形化解决方案——网络图

    网络图适合多分类型变量之间的相关分析,是一种更为生动和直观地展示两个或多个分类型变量相关特征的图形。图形由节点和节点间的连线组成,每个节点对应一个分类取值,连线代表两个分类变量不同类型的组合。

    分类变量相关分析1

    分类变量相关分析2

    根据图形,最细连线代表44人,最粗连线代表237人,可见Plus service(附加服务套餐)节点和未流失节点之间的连线最粗,选择附加服务套餐的用户相对而言比较忠实,而选择基本服务类型的用户保持情况不如选择附加服务的用户保持情况理想。

    以上过程可采用Clementineweb节点实现。


    数值型解决方案——交叉表分析

    图形化方法并不能正确反映两分类变量之间的相关程度,因此精细的数值分析是必要的。两分类变量之间的相关分析通常采用交叉表分析,或称为列联表分析方法。包括两部分,第一,两分类变量交叉计算和对比频数,第二,在交叉表的基础上利用卡方检验衡量二者之间的关系。


    1、交叉表频数对比分析的解读

     image

    由表可知,用户总体保持率72.6%,流失率27.4%,用户保持情况不太理想。总体而言,样本量较小的情况下,四种套餐的占比分布情况不甚明了。

    其中最突出的是,附加服务的客户忠诚度相对较高,保持率达到84.3%,高出总体保持率,流失率在四个套餐中最低,仅15.7%,低于总体流失率。可见,不同类型套餐用户的保持和流失存在差异。

    因此说,客户流失与套餐类型是相关联的。


    2、卡方检验解读 

    image

    卡方检验原假设:行与列分类变量相互独立,没有相关关系。由卡方检验表看出,其sig值为0.000,小于小概率事件的界定值0.01,由小概率事件不发生可以知道,原假设即二者独立这个说法是不合理的,也就是说套餐类型和客户流失是有极显著的相关关系。

    以上交叉表分析可利用 SPSS 实现。


    参考自薛薇、陈欢歌老师著《基于Clementine的数据挖掘》


    同类荐读:相关分析  SPSS  网络图  交叉表 

    本文来自:数据小兵博客

    本文地址:http://datasoldier.net/post/62.html

    版权说明:如非注明,本站文章均为 数据小兵博客 原创,转载请注明出处和附带本文链接。

  • 已有1位网友发表了看法:

    1#不战牡56  2015-10-30 03:21:47 回复该评论
    [春暖花开]

    发表评论

    必填

    选填

    选填

    必填

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。