今天和CK蹭去中科院为严加安老师庆祝七十大寿,祝寿会议的主题是《随机分析及其在金融数学中的应用》。国内概率届的知名人士几乎都来全了(除了年岁太高来不了的),也包括一些从海外赶来的,热闹得紧。不过这次的报告都比较随意,报告人时不时谈了好多和严老师的八卦点滴。其中比较给力的八卦是严老师的书法、摄影颇有造诣,爱好诗歌并且非常潮!!下面摘录两首会议手册中严老师赞颂“淡定”和“给力”的16行诗,以作众乐:

论淡定的一首:

《淡定》
淡定是一种风度,
潇洒从容自如。
淡定是一种自信,
坚定沉着果断。
淡定是一种儒雅,
豁达宽宏大度。
淡定是一种智慧,
处事难得糊塗。
淡定是一种素质,
淡雅纯洁开朗。
淡定是一种品格,
诚信一如既往。
淡定是一种修养,
荣辱得失淡忘。
淡定是一种境界,
春风秋水阳光。

赞给力的一首:

《赞“给力”》
“给力”,一个多么神奇的词汇,
曾是“带劲”一词的闽南方言。
“给力”,凭借网络传播的快捷,
霎时间有了新的含义和韵味。
“给力”,赞美如此传神,
比“牛”和“酷”更振聋发聩。
“给力”,它吸引眼球、令人心醉,
难怪它在华人世界变得风靡。
“给力”或“不给力”,明快简洁,
对事物赞赏或鄙视做出果断判决。
“不给力”比“不带劲”更贴切,
斥责中包含委婉的遗憾和惋惜。
网络神奇,是文化传播的双刃剑,
既能推陈出新,又产出文化垃圾。
传承和繁荣中华文化,责任在肩,
弘扬真、善、美,抵制低俗诡谲。

更多参见这里

此外,今天还见到了侯振挺老师,很是亲切:)

至于今天的报告,我比较感兴趣的是马志明老师的Web Markov Skeleton Process (WMSP), 这里是一份关于WMSP的幻灯片。WMSP和侯老师提出的Markov Skeleton Process (MSP,参见这里的幻灯片及其参考文献)有所不同。侯老师的MSP是很宽泛的一类过程,而马老师的WMSP是和微软研究所合作的,直接面对WEB行为,更针对某一类具体问题,研究地更细更窄。

最后分享严老师于2006年10月在中国科大MPA探讨如何做科研的一些心得,说的非常好。下面是他的演讲内容:

一、打好基础、练好基本功

学习任何一门数学分支,首先要打好基础、练好基本功。所谓基本功,就是对基本概念和主要定理的理解和灵活应用,以及对主要定理证明技巧的掌握。我常用“工欲善其事,先必利其器”这一格言劝导学生打好基础。

二、博观而约取,厚积而薄发

华罗庚有一精辟的论点:获得书本知识是“从薄到厚”再“从厚到薄”的过程。宋朝大文学家苏轼有一名句言:“博观而约取,厚积而薄发”。前者是指“在博览群书时要汲取书中的要领和精髓”,这里“薄发”的原意是“不要随便发表意见”,后人把它引伸为“从大量的知识或材料积累中提炼出精华部分再著书立说”。我的座右铭是:不求著作等身,但企文章久远。

三、直觉、想象和灵感是科技创新的催化剂

对从事科学研究的人来说,最基本的素质应该是创新能力。唐代大文学家韩愈说过:“业精于勤,荒于嬉,毁于随。”这里所说的“随”就是指毫无创见。如何才能创新呢?爱因斯坦有一句名言:“想象力比知识更重要”。他在纪念普朗克60岁生日的演讲中又说:“物理学家的最高使命是得到那些普遍的基本定律,由此世界体系就能用单纯的演绎法建立起来。要通向这些定律,没有逻辑推理的途径,只有通 严加安 严加安过建立在经验的同感的理解之上的那种直觉”。数学家庞加莱也有一句名言:“我们靠逻辑来证明,但要靠直觉来发明”。这些名言告诉我们:创新的基础在于长期的知识积累,但更需要有丰富的想象力和敏锐的直觉。关于创新我有一个比喻:科技创新犹如化学反应,知识是载体,直觉、想象和灵感是催化剂。

长期的知识积累、丰富的想象力和敏锐的直觉是创新工作最重要的准备。除此以外,还要有其它的准备。首先,对研究的问题要有浓厚的兴趣,要全身心的投入,并对解决问题有强烈的愿望;其次,对别人在相关问题上获得的新结果要尽量去了解,要善于将不同结果进行对比;第三,要重视与同行讨论和交流。

四、创造产生机遇的环境

做出创新成果也需要有一定的机遇,但机遇只施惠于有准备的头脑(巴斯德语)。“机遇是可遇不可求”的说法是可以商榷的。我认为在一定条件下可以人为地去创造产生机遇的环境。我的做法是:为了保持研究活力和对研究问题有新鲜感,我每隔一段时期就改变自己的研究领域,因为在新领域里机遇会多一些。在改变研究领域的过渡期内,我往往也同时研究几个相关领域。我从1973年到1984年主要从事鞅论和随机过程一般理论的研究;从1985年到1995年主要从事白噪声分析研究,同时也研究鞅论和随机分析;从1995年到现在主要从事金融数学研究。上世纪80年代初,正是白噪声分析理论初创时期,我于1985年在斯特拉斯堡大学高等数学研究所访问时,Meyer教授建议我关注这一新领域。由于我有较好的泛函分析基础,我抓住了这一机遇,很快进入了白噪声分析领域,并做出了一些基础性贡献。我和Meyer教授合作提出的白噪声分析数学框架被文献称为“Meyer-Yan空间”,并被国际上权威的《数学百科全书》引述。

五、提高文化素质

做学问除了要提高自己的专业素质外,还要加强文学和艺术的修养来提高自己的文化素质。最近读了《中国研究生》第5期上登载的一篇记者采访华中科技大学前校长杨叔子院士的访谈录,很有同感。杨院士在对比人文思维和科学思维时说道:“人文思维是原创思维的主要源泉。人文思维是开放的形象思维,是直觉,是顿悟,是灵感,……,科学思维是逻辑思维,然而科学领域的原创性成就主要不源于逻辑思维,人文思维带来的令人惊叹的灵感与‘猜想’,才能实现原创性。”他援引了爱因斯坦的如下名言:“物理给我知识,艺术给我想象力,知识是有限的,而艺术所开拓的想象力是无限的。”我猜测爱因斯坦所说的“艺术”是泛指“人文文化”。“科学文化”与“人文文化”的关系就是科学与艺术的关系。科学家的理论和艺术家的作品一样,都不可能是对客观事物绝对的和纯粹的反映或描述,而是对客观事物的某些特征的一种“模式化”的构思和思维的创造。

六、数学的美学标准

“真”与“美”是评价科学与艺术的共同准则。对数学研究而言,“真”的准则是不言而喻的,而且是容易达到的,因为任何一个在逻辑推理上正确无误的数学命题都是“真”的。对一项数学成果的评价,一是看它的学术价值,二是看它的美。数学家哈代关于数学的美有如下精辟的论述:“数学家的模式正像画家或诗人的模式一样,必须是充满美感的;数学的概念就像画家的颜色或诗人的文字一样,也必须和谐一致。美感是首要的试金石,丑陋的数学在世上是站不住脚的。”他又说:“数学定理的美在很大程度上依赖其严肃性,……。一个‘严肃’的定理是一个包含‘有意义的’概念的定理。”我认为一个对数学缺乏美感的人是很难做出美的数学来的。如何培养自己的数学的审美观和鉴赏力?阅读数学大师们的论著是一个有效途径。

七、做学问的思想境界

下面谈谈做学问的思想境界问题。王国维在《人间词话》的开题中说:“词以境界为最上。有境界则自成高格,自有名句”。他写道:“古今之成大事业、大学问者,必经过三种之境 严加安获奖书法界:‘昨夜西风凋碧树。独上高楼,望尽天涯路。’此第一境界也。‘衣带渐宽终不悔,为伊消得人憔悴。’此第二境界也。 ‘众里寻她千百度,蓦然回首,那人正在,灯火阑珊处。’此第三境界也。”这里王国维借用晏殊的词句来比喻开始做学问时的踌躇满志的心态;他借用柳永表现爱情的词句来比喻做学问要有“锲而不舍、甘愿奉献”的精神;他借用辛弃疾赞美一超俗女子的词句来比喻做学问要“淡泊名利、自甘寂寞、不随波逐流”。 当前在学术界有一种急功近利的“三F现象”:浮躁,肤浅,浮夸。

最后,我想用俄国文学家赫尔岑的如下一段话来结束我的讲演:“在科学上,除了汗流满面是没有其它获致办法的;热情也罢,幻想也罢,以整个身心渴望也罢,都不能代替劳动。”

 

最近想稍微窥探一下统计中的小波分析之应用,找了本英国Bristol大学G.P. NASON写的Wavelet Methods in Statistics with R。不过翻开前言后,发现竟然出现了周恩来总理的赫赫大名,很是惊讶。细一看,原来是作者引用总理的话来进行类比说理,很佩服Nason渊博的历史知识啊。

随便翻译一下,中译文后面附上原文以正视听:

中国总理(1947-1976)周恩来先生在被问及他对法国大革命观点的时候如此回答,“现在评论还为时过早”;我觉得这个说法也同样适应于小波分析。尽管一些特殊小波的发现已经很有些历史了,但是真正能被称之为“小波理论”的主体架构的建立才仅仅是上个世纪80年代的事情。统计学中引入小波分析是在80年代末和90年代初,最初主要在曲线估计方面比较流行,后来以各种方式逐渐渗透到许多领域,比如生存分析、时间序列分析、图像处理、逆问题、变异数稳定变换等。

When Zhou Enlai, Premier of the People’s Republic of China (1949–1976), was asked his opinion of the French Revolution (1789–1799) he replied “It’s too early to tell”, see Rosenberg (1999). I believe that the same can be said about wavelets. Although particular wavelets were discovered many years ago, the substantial body of literature that we might today call ‘wavelet theory’ began to be established during the 1980s. Wavelets were introduced into statistics during the late 1980s and early 1990s, and they were initially popular in the curve estimation literature. From there they spread in different ways to many areas such as survival analysis, statistical time series analysis, statistical image processing, inverse problems, and variance stabilization.

后面的一段就简述了傅里叶级数的曲折历史和对小波分析的肯定与憧憬。傅里叶的那篇开天辟地巨作也着实命运忐忑,这篇论文经 J.-L.拉格朗日, P.-S.拉普拉斯, A.-M.勒让德等著名数学家审查,由于文中初始温度展开为三角级数的提法与拉格朗日关于三角级数的观点相矛盾,而遭拒绝。由于拉格朗日的强烈反对,傅里叶的论文无以得见天日。1811年傅立叶又提交了他修改后的论文,在里面提出了傅立叶级数和傅立叶积分的创新思想和方法,因而这篇关于热传导问题论文获得了1812年科学院大奖,但是这篇论文因为在论证方面仍然缺乏严密性而未能在科学院的院刊《科学院报告》上正式发表。傅里叶自然对此极为愤懑,但也别无他法。直到他1817年被选为科学院院士,并于1822年成为科学院的终身秘书后,才将他的这篇大作原封不动的放在了他的专著《热的解析理论》中。

法国大革命也是傅里叶级数引入的大历史背景;傅里叶级数引入之后,招来了科研界的各种尖锐的批评(参见Westheimer (2001))。尽管早期存在如此之多的争议,但我们发现在200年后,许多新的傅里叶方法如雨后春笋般的在各个领域中生根发芽。无疑,小波也是科学界的一次革命。它的许多有趣的特点很快得到了认可和欣赏,比如多尺度性、局部性、计算速度等。但其他一些重要问题(比如无条件基),还有待进一步研究。我希望本书能在较小的层面上创建一些新的小波方法。我也坚信小波分析将会在接下来的200年凸显其重要性并继续蓬勃发展。

The French Revolution was also the historical backdrop for the introduction of Fourier series which itself raised considerable objections from the scientific establishment of the day, see Westheimer (2001). Despite those early objections, we find that, 200 years later, many new Fourier techniques are regularly being invented in many different fields. Wavelets are also a true scientific revolution. Some of their interesting features are easy to appreciate: e.g., multiscale, localization, or speed. Other important aspects, such as the unconditional basis property, deserve to be better known. I hope that this book, in some small way, enables the creation of many new wavelet methods. Wavelet methods will be developed and important for another 200 years!

该书作者还写了个小波分析方面的R包wavethresh,为广大R用户提供了很大的便捷。里面有个图像数据颇为可爱,鄙人岂敢独享?奇图共欣赏,故放上来以飨大家。当然,本系列的后续博文会经常提到这只小熊的,并对其进行各种变换。

library("wavethresh")
data(teddy)
par(mar=c(0,0,0,0))
image(teddy)

 

PS1: 关于教科书中出现政治人物,恐怕太祖是空前绝后了,一个精彩案例在此

PS2:本博文纯属八卦,故小波分析系列号为零。后续博文会逐步讨论本人对小波分析的一些学习心得;不妥之处,还请大家多多莅临指点。

PS3:这个博客几乎一年没有更新了,从今日起会时常抽空写点东西,多做总结;这一年也是我事情最多的一年,感谢陪伴我、鼓励我、关心我的各位朋友和老师~~~

 

昨晚跋山涉水,跑到湖南师范大学去听丘成桐老师的讲座(之后发现应该是座谈会)了。过程较为曲折,讲座时间很短,并且以问答为主,比较散漫,仅仅回答了7个问题;可惜的是多数问题都是内定了的,有专门负责提问的人;而且她们(果然是师大啊,很多师太)的很多问题并不是我所关心的:(

总体来说,本次座谈会给我印象较深的有三点:1. 合作交流很重要;2.要有好奇心和恒心;3.良好的文学修养,对培养做学问的气质很重要。下面记一个流水账以及讲座前后之花絮吧。

## begin 流水账

1. 讲座

在一波又一波的全场起立和热烈掌声之中,丘老师大约在9点左右来到了现场,在师大领导郑重地介绍和赞美之后,丘老师开始了简短的讲话(大约10分钟吧)。在这10分钟内,丘老师重点谈的是“合作、交流”,是说思维的碰撞和摩擦才能激发出智慧的火花,并且在一个团队中,大家相互鼓励、相互扶持,即使失败了也不会非常沮丧;而一个人单枪匹地干,很有局限性。丘老师然后提了一下自己的合作朋友,并比较了中外在这方面的不同,其中一个明显的意思就是国内在这方面做得还不够,希望能够加以改善。

之后就开始了大家的互动环节,共回答了7个问题。其中第一个问题是问对于非天才的我们,如何在数学王国里纵横驰骋;丘老师如此回答基本上是这样的:

我不认为存在天才,我遇到了很多很聪明的数学家,他们在学术上非常厉害,但是我认为他们没有太出众的地方,并不能谈得上是天才;我在伯克利第一年上XX课程的时候,刚开始觉得同学们都很厉害,向老师的提问都很难,后来我才发现原来他们的问题基本都是扯淡。……因此,大家最需要的是兴趣和坚持……

我的一点想法:天才显然不是天生的,但是经过后天的培养(尤其是20岁之前思维能力、想象能力的锻炼),他们就变成了天才;这个很大程度上就是教育的原因了,20岁之前是培养思维、想象等能力的黄金岁月,而我们在这些能力上的欠缺导致我们很难望其项背。并且让天才回答“存在不存在天才,什么是天才”是个比较尴尬、可笑的事情,他们看问题的角度和我们不一样,丘老师、爱因斯坦等人都不承认天才,这和他们本身的层次是有关的。

第二个问题是问数学学者的生活问题以及如何树立价值观。丘老师说我们生活的时代很幸福,我没有看见哪一个优秀的数学家有任何经济上的困难,我们很高兴可以一方面做自己喜欢的事情,另一方面不用担心经济问题。其中还提到了十大吃香职业排行榜(第一,玩数学的;第二,搞精算的;第三,泡统计的),还说学数学去路很广,大家不要担忧。

第三个问题是寻求丘老师对喜欢钻研数学的大学本科生有哪些建议。丘老师回答根据环境而定,不可一概而论。

第四个问题是奥数和数学人才的关系。丘老师说到了参加奥数同学的动机问题,并说在美国很多人是为了兴趣而参加,而中国则是为了利益、为了进名校而参加,并且国内参加奥数的大都是以考试为指挥棒,并没有真正广泛深入探究数学之美,而仅仅学习奥数常考得那些题目。所以不同的国度、不同的动机、不同的方式导致了奥数结果的不同。

第五个问题是问当今数学的主流。丘老师说没有明显的主流,但是数论在3000年以来一直是人们研究的重点。并鼓励大家自我创新,开辟出一个主流来。

第六个问题是问其他爱好(红楼梦等文学作品)和数学的关系以及丘老师如何教育孩子的。丘老师坦言文学作品的美好,并强调了他们对培养做学问的气质的重要性。谈到教育,丘老师提到自己在哈佛大学生物博士的孩子,说自己并不干涉孩子的兴趣爱好,其中尤其强调了好奇心的力量。

第七个问题是问我国的数学地位和我国有没有数学重镇。丘老回答的比较隐晦,说我国数学的地位曾经比较高,并有两次非常耀眼(没有具体展开);再就是鼓励大家加把劲,争取建立世界瞩目的数学重镇。

然后,拍了张照,大约10点左右整个讲座就匆匆结束了(丘老师次日一早要乘飞机,需要早些休息)

2. 讲座前后

讲座时间是晚上9-10点,而我是4点半出发,12点回来的,在此记载一下讲座前后的花花絮絮,其中关于学弟学妹的消息很令人振奋。

  • 在等待讲座时,遇到了一位09级的大一小朋友——阮声帅,初次和他见面是在新老生交流会上;当时他问了一个问题,给我流下了深刻的印象:目前学到的各种数学学科都是散的,怎么建立一个有机的体系,搞清楚它们之间的关系并把他们放在一个框架内。这个问题很大,我当时没敢回答(也着实回答不了),这次见了他冒昧推荐了克莱因的一系列数学科普读物,着重从数学史和数学哲学上来追本溯源。更令我惊讶的是,他现在已经大量阅读数学史、数学科普读物了,并广泛涉猎各个数学分支,包含数论、代数等。目前他还孜孜不倦地推导3、4次方程的公式解,并把一些成果发表在他们的学术QQ群中;此外,他还给我讲了一下为什么5次以上方程没有公式解(不过我没听很明白,惭愧啊。和他相比,我的大学生活真的很废,后生着实可畏~
  • 我们铁道杀到河西的一共7人,大二6个小朋友和我,回来的时候,已经没有公交了。我们先派海波同学率领三位MM打的回去,剩下韩帅、刘贯春和我三人,我突然发神经提议我们步行回去吧,没想到他们一致非常同意;于是我们就健步如飞,大踏步向铁道迈进。在寂寞的马路之上,在茫茫的烟雨之中,在昏黄的路灯之下,不知不觉两个小时的路程就被我们一步一步消灭了。我们一路谈了他们目前的学习状况、谈了统计学的出路等问题,非常畅快。在聊天之中,我还了解到很多振奋、惊讶的消息,比如统计交流协会的SAS group在汤耀华的带领下,生机勃勃,他们的一部分在一个多月的课余时间内就看完了几本SAS中、英文经典,目前好几人已经要准备SAS base的考试了,很赞他们的效率。再比如,他们班的某些同学都成学习狂了,不但在每天6点多起床早读,并且令人发指的是有些人竟然在学校自习室关灯后意犹未尽地跑到对面的中心医院中的空病房里上自习,一直到宿舍大门要关的时候才回来,这一直持续到病房里流感的人住满后他们无机可乘才再没去!
  • 回来路上,天落了小雨,我们一行三人觉得更是尽兴,但却苦了海波同学。他打的回来之后,发现下了小雨,就拿着几把伞跑到校门口准备迎接我们,而我们在路上谈得高兴,他的10来个电话我们都没接到,很温暖、很惭愧地让他在风雨之中苦苦等了我们那么长时间。提到风雨,突然想起主席的一首《浪淘沙》,气势磅礴,在此谨以此词祝福他们努力改造恶劣环境,打造属于自己的新天地:

大雨落幽燕,白浪滔天,秦皇岛外打鱼船。一片汪洋都不见,知向谁边。

往事越千年,魏武挥鞭,东临碣石有遗篇。萧瑟秋风今又是,换了人间。

  • 本文中的照片是丘老师的弟子的弟子,也就是我院信科专业的蒋伟峰弟弟照的,再次印证社会网络的“小世界”之说。
  • 去听讲的朋友很多很多,临时还换了会场,经历了很多波折。这里必须要赞扬的是湖师大的国防生朋友们,他们为维持秩序做了很多工作,并且个个都非常和蔼、非常有礼貌、素质很高:)

## end 流水账

 

## 注:此文也放在了cos主站上,这里顺便比较一下两个站点的阅读效果,评论请到cos主站上。
公元1777年,法国科学家D·布丰(D.Buffon 1707~1788)设计了一个巧夺天工的实验:往间距为a的平行线族之间投掷长为L 的针,可以计算出针和平行线相交的概率为:
pi_2ltopia
根据此式,可以得到pi的近似估计值,这的确是一个伟大的、奇妙而划时代的实验,可算是蒙特卡罗模拟中的鼻祖和经典了。在大多数教材上,这个概率都是用积分或二重积分计算得来的,比较繁琐,在matrix67的博客中,我欣慰而惊奇地看到了一种非常简便、直观的解法,感慨了一番,也稍微思考了一番。

期望值的一个最引人注目的性质就是,E(A+B)=E(A)+E(B),不管A和B是不是独立的。想象一根长度为L的铁丝,不管它被弯成了什么形状,扔到地上后它与地板上的平行线的交点个数的期望值都是一样的,并且这个值是和L成正比的。这是因为,我们可以把一根弯铁丝看作很多很多小的直线段构成;而每个充分小的直线段与平行线交点个数的期望都是相同的,那么由期望值的线性关系,整个弯铁丝与平行线交点数的期望就是c·L,其中c是某个固定的系数。为了求出这个系数是多少,我们只需要考虑一些特殊的情况。注意到,把一根长度为pi的铁丝弯成一个直径为1的圆,则把它扔到地上之后,它与这组平行线总有两个交点。这就是说,pi的c倍就等于2,即c等于2/pi。自然,一根单位长度的针与平行线的交点个数的期望值就是2/pi;而由于这根针与平行线要么没有交点,要么就只有一个交点,因此这个数值就相当于是针与平行线相交的概率了。——matrix67

matrix67是北大中文系的学生,他对数学思维的把握令我十分汗颜。期望的这条性质大家知道,但是离灵活运用却差得很远。根据上述理论,很容易得到,对于任何曲线,它和平行线族交点个数(Y)的期望都是:
pi_2stopia

其中S是该曲线周长。

如果要向平行线族之间投掷凸n边形(或者扩展到凸域,凸域就是过该图形任一点做切线,那么所有的点都在切线的同侧,也就是没有凹进去的部分),如果这个凸域的直径不大于平行线距离a的话,那么它和平行线族相交的概率为:

P_stopia

其中,S为凸区域的周长。
概率值刚好是交点个数期望的一半,这个也很直观,因为凸域和平行线的交点个数只有三种可能:

  1. 1个交点:当凸域和平行线相切,或者顶点重合
  2. 2个交点:这种情况是最常见的
  3. 无穷多个交点:有一边重合的时候

其中,第一种情况和第三种情况的几何概率为零,故概率值刚好是交点个数期望的一半(这里不太严谨,望大家指教)。把两根针并在一起,既可以构造一个闭区域,其与平行线相交的概率和交点个数都和上面理论一致。

如果投掷一般闭合区域的话,那么它和平行线族相交的概率依然为:

P_stopia

不过,此时S为该闭区域所生成的最小凸区域的周长。

因为尽管它们的周长不一样,和平行线交点的期望不一样,但是它们和平行线是否有交点的概率是一样的。下图中的类半圆图形就是月牙图形生成的最小凸区域,它们显然和平行线是否相交完全等价。

semicircle2

最后,要说的是直观思维的重要性,定理有千千万万,如果能用直观的形式将它们逐渐消化,那是最好不过的了,我在看书的时候经常能把一个定理啃下来,但是还是觉得对这个定理依然云里雾里的。对此,matrix67做了很精彩的评价:

数学学习真正悲哀的就是,记住了某个神奇而伟大的定理,看懂了其最严密的推导过程,但却始终没能直观地去理解它。虽然严密的推导是必要的,直观理解往往是不准确的,但如果能悟出一个让定理一瞬间变得很显然的解释,这不但是一件很酷的事,而且对定理更透彻的理解和更熟练的运用也很有帮助。

 

据楚天金报7月31日报道,前日,老河口市第二期经济适用房公开摇号,从1,138名具有资格的申请人中摇出了514名住户。当晚,老河口市民发现这514户中出现了“14连号”的现象。

很多网友都算了这个概率,我也凑个热闹。首先计算仅仅出现14连号的概率,不妨先如此定义:1.不限制出现14连号的串数;2. 不得出现15连号。

下面的式子是把 1125种可能的14连号分为两类(两头的和中间的)再粗略计算。其中分子上的1123是指1138-14-1(不选两头14连号挨着的1个数字,比如选了1-14,就不选15),1122是指1138-14-2(不选中间14连号左右挨着的2个数字,比如选了3-16,就不选2和17),这样可以减少重复和15++的连号,但远不是精确解,这是我见到本题的第一想法。

0.004624725

这仍然是个比较粗略的值,有不少重复事件以及15++连号事件算了进去,但是对结果影响似乎不是很大,同计算机模拟的结果差不多,可能是和真值比较接近吧。模拟代码如下(R 环境,更多代码参见我在cos统计之都论坛的帖子),模拟结果是 0.0045 左右:

## 该函数模拟出现"cont连号"的概率,但不限串数
function(n = 50000, cont = 14){
  for(i in 1:n){
    nums <- sort(sample(1138,514))
    nums1 <- nums[1:(514 - cont + 1)]
    nums2 <- nums[cont:514]
    flag <- nums2-nums1
    if(any(flag==(cont-1))) x <- x + 1 #这里不区分14连号的串数

    nums3 <- nums[1:(514-cont)]
    nums4 <- nums[(cont + 1):514]
    flag <- nums4-nums3
    if(any(flag==cont)) x <- x - 1 #去掉15++连号事件
  }
  x/n
}
cont()

模拟14++连号(定义为至少出现了14连号,可能还有15、16或者更多数目的连号,且不限串数)的概率,结果约为0.0082左右,这个结果很多网友都得出来了:

## 该函数模拟出现"con++连号"的概率
con <- function(n = 50000, con = 14){
  x <- 0
  for(i in 1:n){
    nums <- sort(sample(1138,514))
    nums1 <- nums[1:(514-con + 1)]
    nums2 <- nums[con:514]
    flag <- nums2-nums1
    if(any(flag==(con-1))) x <- x + 1
  }
  x/n
}
con()

模拟单串14连号出现的概率,结果和不限串数的14连号概率很接近,都在0.0045左右,代码如下:

## 该函数模拟仅仅出现1串"con连号"的概率
con2 <- function(n = 50000, con = 14){
  x <- 0
  for(i in 1:n){
    nums <- sort(sample(1138,514))
    nums1 <- nums[1:(514-con + 1)]
    nums2 <- nums[con:514]
    flag <- nums2-nums1
    if(sum(flag==(con-1))==1) x <- x + 1
  }
  x/n
}
con2()

此外,有网友曾经得到了下面更粗糙的解(我不确定他是如何定义问题的,但显然不论单串还是多串,不论P(14)还是P(14++),其结果都粗糙了点,因为重复事件太多了),尽管式子和上面的式子很像。算是差之毫厘,失之千里吧。

0.01499478

如果出现14连号事件(不包括15及以上连号事件)的正确答案子0.45%附近,算是个稍微小了一点的概率事件,我们顶多可以怀疑(这样说主要是心理因素而已),但是不能因此断定他们的随机抽样是做了手脚的。因为小概率事件是完全可能发生的,并且实验只有一次,任何一组号都是独一无二的,都是小概率事件。记得有个买体彩P3的朋友坚信出号机有规律,告诉我888三个号很不容易出现,但是我查了历史,这个号照样出现了,并且出现的频率很符合统计规律。我不知道为什么他说不会出现,但是似乎在888出现的时候人们的反响比较大,其中不乏一些质疑的声音。

在1138个数字中随机选择514个,任何一组数字出现的概率都是:

0.008336363

概率都是非常小的,只不过本次的数字有14连号,引起了大家的注意,我在一些论坛上看见了很多荒唐的评价,很多质疑都是没有根据的谩骂。实际上,即使抽出的是一堆杂乱的数字,我们也不能说抽样没有做手脚。

怎么来证明他们的随机抽样有没有做手脚?我认为在这里单纯算算概率仅仅可以让我们心神不安地怀疑一下,但根本不足以下结论。关键是要从常理出发,并且考虑到经济适用房的销售模式、历史经验,然后客观地进行分析,最起码要考虑这几点:

1. 申请人的ID是怎么确立的,是随机的吗?还是按照什么规律。
2. 这14个申请人之间有什么联系?是不是相互认识,是不是有相同的后台或者单位?他们个人或者所在的单位和负责分配房子的机构有没有值得怀疑的来往?这一点尤其关键。
3. 随机抽样的过程是不是公开的?采用什么样的技术和设备?是不是有信得过的监管机构?
4. 负责分配房子的机构里有哪些人?他们有没有违法违纪或者不得民心的前科?
5. 不要把注意力仅仅放在这14连号之上,如果抽样有猫腻,其他500个申请人也必须仔细盘查。这一点很容易被人忽略,但是却是非常关键的一点。
6. ……

要调查的可能还有很多很多,总之,看问题要以系统的眼光来看,俯瞰全局,任何和该系统有关的东西都不应该放过。而在千头万绪之中,还要善于抓住事物的主要矛盾,去粗取精、去伪存真。

统计永远不能告诉我们所有的答案,它可以给我们一个思路、一个方法或者一些灵感,但不能替代对事物本身的机理分析。工具永远只是工具,尽管它的确很重要,但它不是问题本身。我们的最终目的不是炫耀工具,而是解决问题。当然,在本案中,不存在炫耀工具的问题,也没有什么技术性的东西。

我们应该相信科学,而不是凭空觉得这个概率比月亮撞上地球的概率还小;也希望某些试图仅仅通过统计手段就想得到结论的朋友们不要太“唯统计论”。写到这里,突然想起今天见到的阔别三年的朋友的一句话:任何东西,只要犯上个“唯”字,就很容易走极端而出错。诚然,任何手段任何理论任何观点,都有它本身的局限性,没有放之四海而皆准的真理。这也就是哲学中的矛盾论所阐述的精华了。

 
发现第一届 R 中国会议上了The R Journal第一期(Conference Review: The 1st Chinese R Conference,第69页),很有历史意义,谢兄辛苦了啊。

此外,还发现文中还介绍各个演讲者和对应的演讲课题,我的也放了进去(Statistical Computation :optimization in R by Taiyun Wei),这是我的名字第一次上正式学术期刊,呵呵。
不知第二届 R 中国会议何时何地举办,消息灵通的看客了不妨透漏一下

 
下午拿 R 去忽悠师兄师姐们,主题是回归和分类在R中的实现,讲得乱七八糟,幸好许青松老师宽宏大量,师兄师姐们都很给面子。不过可能由于我耿耿于怀没有讲好,晚上吃饭时闹了个笑话:
晚上去吃蒸菜,愣是要份回归肉(这两天回归树、回归机说得多了些,可怎么又冒出了个回归肉啊),搞得服务员摸不着头脑,整个半天才弄明白我要的是梅菜扣肉(不是回锅肉)。
 
《娄景书》是我国最早预测天气的文献,相传为西汉年间湖南人娄景所作的一本以预测农业气象为主的古书.湖南民间称其为娄景先师,称其书为《娄景通书》。

《娄景书》,成书时间大概约公元前206年(汉高祖刘邦元年)前后。这本书历经2000多年的 考验,仍有生命力,说明其有一定的客观根据和普遍性。但自然现象,不可能对任何地区都有严格而简单的单一周期。虽然《娄景书》说的是湖南一隅的天时变化, 但本书运用干支周期进行天时气象预测的实际,探索出干支60年和60日周期的根据和气象变化相关联的事实。因此其他地区未必就不可以通过结合当地的实际情 况,找出与《娄景书》相对应的干支周期规律,从而对当地的天气情况进行预测。

本人是学统计的,在统计的角度老看,《娄景书》不是什么伪科学,而是对现实的归纳和总结。统计在很多时候,不会告诉你“为什么”,但却道出了“是什么”。现将今年的旱涝预测摘录如下,看看是否能够应验。其中大小兄弟是指大麦、小麦,而乌金、豹子分别指油菜、黄豆。

己丑年来雨连连 田中深处好行船
高乡人处多欢乐 低下耕锄不见田
大小兄弟多争叹 乌金豹子正堪眠
流郎四季多定数 米贵人病受熬煎

此外,还发现了这么一篇文章,2008年中国灾难重重很正常,是从太阳黑子的周期来分析灾害的,这个翁文波院士曾经用过很多次,上面关于《娄景书》的介绍,也是取自翁老的《天干地支纪历与预测》。

PS. 需要翁老的《天干地支纪历与预测》、《预测论基础》可以emaill我:weitaiyun<AT>gmail.com。最后,我把娄景书传到我的gdocs上了: 娄景书下载.

 

昨天买了本北京大学出版社的《应用商务统计分析》,是光华管理学院的教材,就200多页,却要人民币35元,徘徊了良久,终于忍痛将其纳入囊中。

此书刚翻开时最吸引我的是书里面的程序都是在R环境下写的,对于R软件我算是比较青睐了,目前国内由出版社正式出版的就有三本,一本是王斌会老师的一本书,名字不大记得了,另一本是北京工业大学的薛毅老师的《统计建模与R软件》,该书也很昂贵,49元,不过该书可谓物有所值,无论内容、思想还是排版、结构,都十分令人满意,我在淘宝上拍了一本。第三本就是王汉生老师的这本《应用商务统计分析》了,昨天夜里看了看,发现这本书也是很精彩的,更强调实际应用,非常实用,书也算买得值了。查了下王老师的简介,发现汉生同志还是很辉煌的,也是个海龟。

关于R的英文资料可是铺天盖地了,只不过我英语太差,只能望洋兴叹了,看来还得恶补一下。

 

Knowledge is what we know
Also, what we know we do not know.
We discover what we do not know
Essentially by what we know
Thus knowledge expands.

With more knowledge we come to know
More of what we do not know.
Thus knowledge expands endlessly.

All knowledge is, in final analysis, history.
All sciences are, in the abstract, mathematics.
All judgements are, in their rationale, statistics.

知识是我们已知的
也是我们未知的
基于已有知识之上
我们去发现未知的
由此,知识得到扩充
我们获得的知识越多
未知的知识就会更多
因而,知识的扩充永无止境

在终极的分析中,一切知识都是历史
在抽象的意义下,一切科学都是数学
在理性的基础上,所有的判断都是统计学

© 2010 优秀是一种习惯 taiyun.wei@cos.name Suffusion theme by Sayontan Sinha