全站文章列表 | 收藏本站 | RSS订阅 SPSS教程|答疑|案例|训练营
SPSS案例Clementine关联规则:双色球能预测吗?

Clementine关联规则:双色球能预测吗?
时间:2015年04月14日 | 栏目:SPSS案例 | 评论: | 点击: 1810

  • 双色球=500万,说“一夜暴富、倾家荡产、鬼迷心窍”也都不为过,常听说,沙县小吃、绝味鸭脖、牛肉拉面是全国最泛的连锁,我想彩票站可能才是全国最最泛的连锁哈,总之一句话,双色球牵挂着千千万万的国人,他们买的是彩票,内心里是一串串财务数字。

    双色球天然是数据,距离我们又非常近,不拿双色球娱乐一下就对不住观众朋友们。早前看到沈浩老师曾写过一篇“挖挖双色球”的文章,非常精彩,既科学了,也娱乐了,今天也效仿下,做篇类似的文章。


    双色球数据采集


    很多网站有双色球专栏,我们可以非常轻松的采集到每一期的开奖结果。最简单的方法就是直接从网页上复制到excel表格中,最便捷的方法是就是每期过后自动采集的小工具、小软件了,百度搜索一下就能找到。本文选择第 11147-12093共100期双色球开奖数据为例,复制整理后的结果如下图:

    此表带有国人制作报表的特质,是一张行列交叉的二维表格,对于数据挖掘任务来说,这样的数据集表格是没有办法进行建模的,我们还需要将格式按照分析的要求进行适当的变换。


    数据建模方法选择


    双色球能预测么?几乎所有的人都有此一问,从概率统计角度,这是随机过程,每一个数字出现的概率基本一致,答案自然是难以预测,但是,现实中却仍然有很大部分人抱有“可预测”的期望,试想一下,如果真的能预测,你认为国家还会玩这个公益游戏么?因此,就像沈浩老师说的一样,“我们要有基本的科学素养”!

    我们先假设:数据质量ok,可能含有某种“规律”(从开出的结果来看,似乎某些号码会一起出现)。检验这样的假设,关联规则是其中一个选择,我们试图通过关联规则来了解一下各个号码的出号规律。是不是有哪些号码会同时出现。因此,确定的建模方法:关联规则。


    关联规则对数据的要求


    要求数据源按照“事实表或者事务表格式组织”,前面我们采集的100期数据是二维表格,现在我们首先将此二维表转换为事实表格式。可能的途径:二维表——事务表——事实表。


    1、二维表——事务表的转换(SPSS数据重组功能)

    用spss打开含有100期开奖结果的excel二维表格,选择“数据”——“重组”菜单,选择“将选定变量重组为个案”,一共历经7步骤,按照向导的指示操作即可。

    spss数据重组之后,我们保存该spss数据,命名为:双色球100期。此时是事务表格式(想象一下超市pos单据的格式)。


    2、事务表——事实表的转换(clementine“设为标志”节点)

    先读入spss数据源,过滤掉id、索引两列,只留下期号、红球两列。插入“设为标志”节点,

    clementine的“设为标志”节点,用于根据为一个或多个集合字段定义的分类值导出标志字段。例如,药品演示数据包含一个集合字段 BP(血压),其值为 High、Normal 和 Low。为简化数据操作,可以创建一个代表高血压的标志字段,用于指示患者是否患有高血压。经过“设为标志”节点后,原来具体的红球号码,被转换为“是与否”即“1与0”格式,本例的结果如下图:


    图形初步探索


    在开始数据挖掘之前,我们首先通过图形工具对假设进行初步的探索,希望能通过图形直观的观察到红球一起出现的可能。clementine的网络图是非常不错的工具,是一种更为生动和直观地展示两个或多个分类变量分布特征的图形,能够显示出变量间相关性的强弱,经常和关联规则模型配合使用。在“设为标志”节点之后插入“网络图”节点,将1-33个红球变量选入分类框内,运行即可。

    较粗的连线表明两端的数字具有较强相关,滑动关联强度,可以省略掉比较弱的链接,便于快速了解关联情况。我们可以读出以下几条可能的规律:19和28;5和24;4和26;9和15;这几组关联强度比较客观,经常在同一期中同时出现。当然,这只是我们从图形上做出的初步判断,心里大概有地啦。其他规则还有待于我们利用clementine的关联规则模型来发掘了。


    Clementine关联规则


    数据流如下所示,插入的是Apriori关联规则模型节点。

    关联规则设置:我们希望看到不同红球一起出现的可能,因此,关联规则的前项和后项全部设置为1-33个红球,考虑到样本量只有100,较少,另外,规则可能不够明显,因此支持度和置信度均设置较低,目的主要是看模型如何运行。

    模型结果格式适当调整后如下图所示,此时可以看到,我们得到的规则和网络图的初步结果有很多相似的地方,比如,19和28号红球,5、24和33号红球,4和26号红球,这些规则置信度相对较高,提升值也相对较好。那么,是不是在双色球投注的时候可以考虑5、24、33投注呢?或许吧,各位看官觉得呢?

    读到此处,经常投资双色球的同学可能还会想都红球和篮球之间是否存在某些规律呢?出现某一篮球时,会不会同时出现某一红球?我们来试一下吧。


    1、网络图,总体来说,红球和蓝球间的关联度较小。不易发觉。

    2.关联规则模型

    支持度很低,大概看一下,蓝8号最可能和红22号出现,蓝12和红2,蓝9和14,11;这只是字面上的,若果我们的样本量巨大的话,这些规则看起来将毫无意义,因为最大的科学是,随机不可预测。

     

    在沈浩老师博客中,采用GRI模型节点,而本文采用的是Apriori节点,有少许不同,但二者的主要目的一致,并不在于双色球投注,当然,关联规则用于双色球投注,也算是一种投注方式的探索吧。至于能否真正的应用于彩票投注,就不是本文的目的所在了(当然,允许各位双色球爱好者保留美好的愿望)。


    参考自:沈浩老师的博客 

     

    如果您认为小兵博客的内容有价值,对你有帮助,

    可用支付宝扫一扫右侧的二维码进行少额打赏支持。

    认准支付宝账号:dtminer@163.com。


    同类荐读:SPSS教程  数据挖掘  分析工具  clementine  关联分析 

    本文来自:数据小兵博客

    本文地址:http://datasoldier.net/post/shuangseqiu.html

    版权说明:如非注明,本站文章均为 数据小兵博客 原创,转载请注明出处和附带本文链接。

    友荐云推荐