据楚天金报7月31日报道,前日,老河口市第二期经济适用房公开摇号,从1,138名具有资格的申请人中摇出了514名住户。当晚,老河口市民发现这514户中出现了“14连号”的现象。
很多网友都算了这个概率,我也凑个热闹。首先计算仅仅出现14连号的概率,不妨先如此定义:1.不限制出现14连号的串数;2. 不得出现15连号。
下面的式子是把 1125种可能的14连号分为两类(两头的和中间的)再粗略计算。其中分子上的1123是指1138-14-1(不选两头14连号挨着的1个数字,比如选了1-14,就不选15),1122是指1138-14-2(不选中间14连号左右挨着的2个数字,比如选了3-16,就不选2和17),这样可以减少重复和15++的连号,但远不是精确解,这是我见到本题的第一想法。

这仍然是个比较粗略的值,有不少重复事件以及15++连号事件算了进去,但是对结果影响似乎不是很大,同计算机模拟的结果差不多,可能是和真值比较接近吧。模拟代码如下(R 环境,更多代码参见我在cos统计之都论坛的帖子),模拟结果是 0.0045 左右:
## 该函数模拟出现"cont连号"的概率,但不限串数
function(n = 50000, cont = 14){
for(i in 1:n){
nums <- sort(sample(1138,514))
nums1 <- nums[1:(514 - cont + 1)]
nums2 <- nums[cont:514]
flag <- nums2-nums1
if(any(flag==(cont-1))) x <- x + 1 #这里不区分14连号的串数
nums3 <- nums[1:(514-cont)]
nums4 <- nums[(cont + 1):514]
flag <- nums4-nums3
if(any(flag==cont)) x <- x - 1 #去掉15++连号事件
}
x/n
}
cont()
模拟14++连号(定义为至少出现了14连号,可能还有15、16或者更多数目的连号,且不限串数)的概率,结果约为0.0082左右,这个结果很多网友都得出来了:
## 该函数模拟出现"con++连号"的概率
con <- function(n = 50000, con = 14){
x <- 0
for(i in 1:n){
nums <- sort(sample(1138,514))
nums1 <- nums[1:(514-con + 1)]
nums2 <- nums[con:514]
flag <- nums2-nums1
if(any(flag==(con-1))) x <- x + 1
}
x/n
}
con()
模拟单串14连号出现的概率,结果和不限串数的14连号概率很接近,都在0.0045左右,代码如下:
## 该函数模拟仅仅出现1串"con连号"的概率
con2 <- function(n = 50000, con = 14){
x <- 0
for(i in 1:n){
nums <- sort(sample(1138,514))
nums1 <- nums[1:(514-con + 1)]
nums2 <- nums[con:514]
flag <- nums2-nums1
if(sum(flag==(con-1))==1) x <- x + 1
}
x/n
}
con2()
此外,有网友曾经得到了下面更粗糙的解(我不确定他是如何定义问题的,但显然不论单串还是多串,不论P(14)还是P(14++),其结果都粗糙了点,因为重复事件太多了),尽管式子和上面的式子很像。算是差之毫厘,失之千里吧。

如果出现14连号事件(不包括15及以上连号事件)的正确答案子0.45%附近,算是个稍微小了一点的概率事件,我们顶多可以怀疑(这样说主要是心理因素而已),但是不能因此断定他们的随机抽样是做了手脚的。因为小概率事件是完全可能发生的,并且实验只有一次,任何一组号都是独一无二的,都是小概率事件。记得有个买体彩P3的朋友坚信出号机有规律,告诉我888三个号很不容易出现,但是我查了历史,这个号照样出现了,并且出现的频率很符合统计规律。我不知道为什么他说不会出现,但是似乎在888出现的时候人们的反响比较大,其中不乏一些质疑的声音。
在1138个数字中随机选择514个,任何一组数字出现的概率都是:

概率都是非常小的,只不过本次的数字有14连号,引起了大家的注意,我在一些论坛上看见了很多荒唐的评价,很多质疑都是没有根据的谩骂。实际上,即使抽出的是一堆杂乱的数字,我们也不能说抽样没有做手脚。
怎么来证明他们的随机抽样有没有做手脚?我认为在这里单纯算算概率仅仅可以让我们心神不安地怀疑一下,但根本不足以下结论。关键是要从常理出发,并且考虑到经济适用房的销售模式、历史经验,然后客观地进行分析,最起码要考虑这几点:
1. 申请人的ID是怎么确立的,是随机的吗?还是按照什么规律。
2. 这14个申请人之间有什么联系?是不是相互认识,是不是有相同的后台或者单位?他们个人或者所在的单位和负责分配房子的机构有没有值得怀疑的来往?这一点尤其关键。
3. 随机抽样的过程是不是公开的?采用什么样的技术和设备?是不是有信得过的监管机构?
4. 负责分配房子的机构里有哪些人?他们有没有违法违纪或者不得民心的前科?
5. 不要把注意力仅仅放在这14连号之上,如果抽样有猫腻,其他500个申请人也必须仔细盘查。这一点很容易被人忽略,但是却是非常关键的一点。
6. ……
要调查的可能还有很多很多,总之,看问题要以系统的眼光来看,俯瞰全局,任何和该系统有关的东西都不应该放过。而在千头万绪之中,还要善于抓住事物的主要矛盾,去粗取精、去伪存真。
统计永远不能告诉我们所有的答案,它可以给我们一个思路、一个方法或者一些灵感,但不能替代对事物本身的机理分析。工具永远只是工具,尽管它的确很重要,但它不是问题本身。我们的最终目的不是炫耀工具,而是解决问题。当然,在本案中,不存在炫耀工具的问题,也没有什么技术性的东西。
我们应该相信科学,而不是凭空觉得这个概率比月亮撞上地球的概率还小;也希望某些试图仅仅通过统计手段就想得到结论的朋友们不要太“唯统计论”。写到这里,突然想起今天见到的阔别三年的朋友的一句话:任何东西,只要犯上个“唯”字,就很容易走极端而出错。诚然,任何手段任何理论任何观点,都有它本身的局限性,没有放之四海而皆准的真理。这也就是哲学中的矛盾论所阐述的精华了。
近期评论