演讲归来杂想

今天早上前两节课去和08级学弟学妹们去聊天,我很喜欢这些可爱、上进、温馨的孩子们:)

方老师给我的主题是R和统计分析,但鉴于大家才刚学概率论和统计学原理,没有接触太多模型、软件之类的,因此我就很随意地扯了两节课。不过不幸的是,我对于时间掌控还是很欠火候,感觉几分钟就能讲完的往往要讲几十分钟时间,结果没有留下最重要的互动时间。我实际的主题包括两方面,第一个是谈编程对统计的重要性,第二是闲扯一些东西,包括搬出一堆统计界内的优秀华人来激励大家(包括我自己)。

在本次演讲之前,R group刚刚结束了日常活动以及事务,而在今天演讲之后,更觉得有种如释重负的感觉,一身轻松,似乎卸下了很多压力或者责任。

这学期汤耀华、舒睿和我几人折腾了个统计交流协会,主要面向学弟学妹,我们三人以统计软件(分别为SAS、SPSS、R)为幌子,各自带领一批学弟学妹组成一个group来学习交流。其实,我们本意并不是各自建立个团队,但由于我们没什么相关经验,加之心有余而力不足,折腾着、折腾着,不知不觉就变成三个独立团了。

我们R group共六人,我和大二的4个学弟、1个学妹(抚钢琴、通韩语、考注会的彪悍学妹),我们最主要的活动是每周六6:30-10:30的session,在session期间,我们一般是在一个优雅而又便宜的咖啡馆里谈天说地,包括课程学习、软件应用、文史哲学、思想文化等诸多方面。之所以采取这样的形式,主要是受我大二物理老师的影响,他非常赞赏这种在咖啡屋里自由、畅快、毫不拘束的交流,并举了很多物理学中的例子。

在和学弟学妹们的交流中,他们在学习上的刻苦精神给了我深刻的印象,我从中的确学到了很多;同时我也觉得很有压力,因为我们这边环境恶劣,作为学长,我觉得有必要将一些有用的经验、教训传播开来,但同时我完全明白我自己本身有太多的局限性,害怕反倒把他们带到歧路上来,也就是担心好心办坏事。因此,在觉得黔驴技穷之后,我就选择了悄然退出。协会以后的工作完全交给他们自己来做,我至多过来凑凑热闹。

最近看Starivanos的《全球通史》(第七版),发现第四编之欧亚大陆的中世纪文明之结语:

然而欧洲的这种不发达较之中国的发达反而是一种优势,因为中国的发达反过来成为抑制其进一步发展的因素。这使得中国人在一个巨变的时代没能发生变化。相反,西欧人却恰恰因为自身比较落后,所以他们渴望学习,并积极创造。他们拿来了中国的文明,竭尽全力发展它们,并将其用于海外扩张。这种扩张又反过来引致更大的技术进步和更多的制度变化。最终的结果是中世纪文明转变成现代文明,而欧洲人则成为这一转变的先锋和受益者。

这种历史发展模式表明,历史的发展并不像通常所说的“一事成功,事事领先”,人类学家将此称为“遏制领先法则”。该法则认为,在转变时期起先最发达和最成功的社会要想改变其领先地位将是最困难的。相反,落后和较不成功的社会则可能更能适应变化,并在转变中逐渐处于领先地位。

这段话很给我震撼,同时希望学弟学妹们不要焦躁,只要好好学习、把握好机会,就一定可以超越自我,转劣势为优势。

———————————–分割线——————————————

最近很浮躁,杂想很多,实事反而做得很少;过几天就要回家了,回家之后与世隔绝,没网可上,不过倒也可以静下心来好好看看书。

PS: 今天主要用到的slides如下,里面提到的部分参考文献值得一看:

谢益辉,2007.5,统计编程的框架与R语言统计分析基础,“统计之都”北京地区第一次沙龙活动演讲 幻灯片下载
魏太云,2009.12,2009年最后的闲言碎语-与08级统计学子的交流座谈,《统计学原理》课堂演讲幻灯片下载

听丘成桐老师讲座之前中后

昨晚跋山涉水,跑到湖南师范大学去听丘成桐老师的讲座(之后发现应该是座谈会)了。过程较为曲折,讲座时间很短,并且以问答为主,比较散漫,仅仅回答了7个问题;可惜的是多数问题都是内定了的,有专门负责提问的人;而且她们(果然是师大啊,很多师太)的很多问题并不是我所关心的:(

总体来说,本次座谈会给我印象较深的有三点:1. 合作交流很重要;2.要有好奇心和恒心;3.良好的文学修养,对培养做学问的气质很重要。下面记一个流水账以及讲座前后之花絮吧。

## begin 流水账

1. 讲座

在一波又一波的全场起立和热烈掌声之中,丘老师大约在9点左右来到了现场,在师大领导郑重地介绍和赞美之后,丘老师开始了简短的讲话(大约10分钟吧)。在这10分钟内,丘老师重点谈的是“合作、交流”,是说思维的碰撞和摩擦才能激发出智慧的火花,并且在一个团队中,大家相互鼓励、相互扶持,即使失败了也不会非常沮丧;而一个人单枪匹地干,很有局限性。丘老师然后提了一下自己的合作朋友,并比较了中外在这方面的不同,其中一个明显的意思就是国内在这方面做得还不够,希望能够加以改善。

之后就开始了大家的互动环节,共回答了7个问题。其中第一个问题是问对于非天才的我们,如何在数学王国里纵横驰骋;丘老师如此回答基本上是这样的:

我不认为存在天才,我遇到了很多很聪明的数学家,他们在学术上非常厉害,但是我认为他们没有太出众的地方,并不能谈得上是天才;我在伯克利第一年上XX课程的时候,刚开始觉得同学们都很厉害,向老师的提问都很难,后来我才发现原来他们的问题基本都是扯淡。……因此,大家最需要的是兴趣和坚持……

我的一点想法:天才显然不是天生的,但是经过后天的培养(尤其是20岁之前思维能力、想象能力的锻炼),他们就变成了天才;这个很大程度上就是教育的原因了,20岁之前是培养思维、想象等能力的黄金岁月,而我们在这些能力上的欠缺导致我们很难望其项背。并且让天才回答“存在不存在天才,什么是天才”是个比较尴尬、可笑的事情,他们看问题的角度和我们不一样,丘老师、爱因斯坦等人都不承认天才,这和他们本身的层次是有关的。

第二个问题是问数学学者的生活问题以及如何树立价值观。丘老师说我们生活的时代很幸福,我没有看见哪一个优秀的数学家有任何经济上的困难,我们很高兴可以一方面做自己喜欢的事情,另一方面不用担心经济问题。其中还提到了十大吃香职业排行榜(第一,玩数学的;第二,搞精算的;第三,泡统计的),还说学数学去路很广,大家不要担忧。

第三个问题是寻求丘老师对喜欢钻研数学的大学本科生有哪些建议。丘老师回答根据环境而定,不可一概而论。

第四个问题是奥数和数学人才的关系。丘老师说到了参加奥数同学的动机问题,并说在美国很多人是为了兴趣而参加,而中国则是为了利益、为了进名校而参加,并且国内参加奥数的大都是以考试为指挥棒,并没有真正广泛深入探究数学之美,而仅仅学习奥数常考得那些题目。所以不同的国度、不同的动机、不同的方式导致了奥数结果的不同。

第五个问题是问当今数学的主流。丘老师说没有明显的主流,但是数论在3000年以来一直是人们研究的重点。并鼓励大家自我创新,开辟出一个主流来。

第六个问题是问其他爱好(红楼梦等文学作品)和数学的关系以及丘老师如何教育孩子的。丘老师坦言文学作品的美好,并强调了他们对培养做学问的气质的重要性。谈到教育,丘老师提到自己在哈佛大学生物博士的孩子,说自己并不干涉孩子的兴趣爱好,其中尤其强调了好奇心的力量。

第七个问题是问我国的数学地位和我国有没有数学重镇。丘老回答的比较隐晦,说我国数学的地位曾经比较高,并有两次非常耀眼(没有具体展开);再就是鼓励大家加把劲,争取建立世界瞩目的数学重镇。

然后,拍了张照,大约10点左右整个讲座就匆匆结束了(丘老师次日一早要乘飞机,需要早些休息)

2. 讲座前后

讲座时间是晚上9-10点,而我是4点半出发,12点回来的,在此记载一下讲座前后的花花絮絮,其中关于学弟学妹的消息很令人振奋。

  • 在等待讲座时,遇到了一位09级的大一小朋友——阮声帅,初次和他见面是在新老生交流会上;当时他问了一个问题,给我流下了深刻的印象:目前学到的各种数学学科都是散的,怎么建立一个有机的体系,搞清楚它们之间的关系并把他们放在一个框架内。这个问题很大,我当时没敢回答(也着实回答不了),这次见了他冒昧推荐了克莱因的一系列数学科普读物,着重从数学史和数学哲学上来追本溯源。更令我惊讶的是,他现在已经大量阅读数学史、数学科普读物了,并广泛涉猎各个数学分支,包含数论、代数等。目前他还孜孜不倦地推导3、4次方程的公式解,并把一些成果发表在他们的学术QQ群中;此外,他还给我讲了一下为什么5次以上方程没有公式解(不过我没听很明白,惭愧啊。和他相比,我的大学生活真的很废,后生着实可畏~
  • 我们铁道杀到河西的一共7人,大二6个小朋友和我,回来的时候,已经没有公交了。我们先派海波同学率领三位MM打的回去,剩下韩帅、刘贯春和我三人,我突然发神经提议我们步行回去吧,没想到他们一致非常同意;于是我们就健步如飞,大踏步向铁道迈进。在寂寞的马路之上,在茫茫的烟雨之中,在昏黄的路灯之下,不知不觉两个小时的路程就被我们一步一步消灭了。我们一路谈了他们目前的学习状况、谈了统计学的出路等问题,非常畅快。在聊天之中,我还了解到很多振奋、惊讶的消息,比如统计交流协会的SAS group在汤耀华的带领下,生机勃勃,他们的一部分在一个多月的课余时间内就看完了几本SAS中、英文经典,目前好几人已经要准备SAS base的考试了,很赞他们的效率。再比如,他们班的某些同学都成学习狂了,不但在每天6点多起床早读,并且令人发指的是有些人竟然在学校自习室关灯后意犹未尽地跑到对面的中心医院中的空病房里上自习,一直到宿舍大门要关的时候才回来,这一直持续到病房里流感的人住满后他们无机可乘才再没去!
  • 回来路上,天落了小雨,我们一行三人觉得更是尽兴,但却苦了海波同学。他打的回来之后,发现下了小雨,就拿着几把伞跑到校门口准备迎接我们,而我们在路上谈得高兴,他的10来个电话我们都没接到,很温暖、很惭愧地让他在风雨之中苦苦等了我们那么长时间。提到风雨,突然想起主席的一首《浪淘沙》,气势磅礴,在此谨以此词祝福他们努力改造恶劣环境,打造属于自己的新天地:

大雨落幽燕,白浪滔天,秦皇岛外打鱼船。一片汪洋都不见,知向谁边。

往事越千年,魏武挥鞭,东临碣石有遗篇。萧瑟秋风今又是,换了人间。

  • 本文中的照片是丘老师的弟子的弟子,也就是我院信科专业的蒋伟峰弟弟照的,再次印证社会网络的“小世界”之说。
  • 去听讲的朋友很多很多,临时还换了会场,经历了很多波折。这里必须要赞扬的是湖师大的国防生朋友们,他们为维持秩序做了很多工作,并且个个都非常和蔼、非常有礼貌、素质很高:)

## end 流水账

用R来玩分形

A fractal is “a rough or fragmented geometric shape that can be split into parts, each of which is (at least approximately) a reduced-size copy of the whole,”a property called self-similarity. Roots of mathematical interest in fractals can be traced back to the late 19th Century; however, the term “fractal” was coined by Benoît Mandelbrot in 1975 and was derived from the Latin fractus meaning “broken” or “fractured.” A mathematical fractal is based on an equation that undergoes iteration, a form of feedback based on recursion.

(form Wikipedia)

分形几何是几何学中的新分支,其维数可以是任意值。分形图形的一个重要特点是自相似性,据此性质可以人工构造出很多养眼的图片,这里给出四种常见的分形图。更多代码和讨论请移步COS论坛

1. 树叶

plot.leaf <- function(n=50000, col="green",cex=2){
  x <- c(.5, .5);
  plot(x[1], x[2], xlim=c(-3, 3), ylim =c(0, 10),type="n",xlab="",ylab="")
  p <- c( .85,  .92,  .99,  1.00);
  A <- rbind(c(.85, .04), c(-.04,.85), c(.20,-.26), c(.23,.22),
             c(-.15,.28), c(.26,.24),  c(0, 0), c(0, .16))
  B <- cbind(c(0, 1.6), c(0, 1.6), c(0,.44), c(0,0))

  for (i in 1:n){
     ran  <-  runif(1);
	 ind <- rank(c(p, ran), ties.method="min")[5]
	 x <- A[(2*ind-1):(2*ind),]%*%x + B[,ind]
    points(x[1],x[2], pch=".", cex=cex, col=col)
  }
}
#library(Cairo)
#CairoPNG()
par(mar=c(0,0,0,0)+0.1)
plot.leaf(cex=1.6)
box()
#dev.off()

koch

2. 树

koch

3. 三角

koch

4. 雪花

koch

第二届R会议那些事儿(上海)

公元2009年12月13日下午,第二届R会议上海分会场急匆匆地、意犹未尽地结束了,整个第二届R会议也终于完满地落下了帷幕。做为两会代表之一,我觉得有必要用我贫乏的文字来记载本届R会议的点点滴滴以及我自己的一些感触。上篇博文谈了很多北京会场的事儿,这里重点说说上海会场。

1. 辛勤、无私的会议组织者

首先必须感谢在幕后为会议默默奉献的工作人员,上海会场的主席是张翔和焦静两位热心人,先借用益辉的一段话吧:

张翔呢,我没想到他会担起这次会议组织者的角色,上海会场在他的带领下也办得有声有色(看看会议通知页面的宣传海报多么亮丽),和焦静两人拉赞助、发传单、安排吃住,作为已经工作的人,对一门自由软件如此费心,甚为难得;焦静呢,现在不在统计专业(生态),却帮忙做着一门统计软件的推广,跑校区、定会场、找领导,忙得不亦乐乎……

会议组织人员还包括焦静姐姐实验室的一批朋友,她们是辛勤、无私的幕后英雄,有些甚至为会议熬出了黑眼圈,焦静姐姐的导师陈老师也为本次会议默默付出了很多,非常感谢他们为大家做出的贡献。

2. 演讲报告&世界真小

首先要说的是国内LaTeX、R的传播方面的元老级人物——汤银才老师,汤老师兴致勃勃地全程参加了这次R会议,为大家做了《R与WinBUGS》的报告,在报告中还充分赞扬了COS论坛对R传播的不菲贡献。之前一直在CTEX上、《应用概率统计》上看见汤老师的大名,没想到竟然能和汤老师相逢在第二届R会议中,真是神奇。此外,汤老师还对我的娱乐工作(矩阵可视化)非常感兴趣,让我觉得受宠若惊。

我在演讲中反复提到了台湾中央研究院统计所的陈君厚老师,却没想到离我座位很近的一位大哥就曾在陈老师那里学习工作,并且他还是在人大读的博士!这位大哥叫林帧舜,来自台湾,目前在商界驰骋,还是吉林大学的兼职教授。林兄演讲非常幽默风趣,时常让全场沸腾。再插播一则令人兴奋的好消息:林兄告诉我以后的会议可以帮我们请陈老师等人过来(陈老师也是useR!),期待中。此外,林兄有句经典的话“人大的学生就是喜欢折腾”,让我思绪万千。

据说(这个据说被证明是正确的)华人在美国统计界占了半壁江山,哥伦比亚大学的统计系系主任应志良就是其中出色的一位。应老师是彪悍的复旦数学系78级校友,这次会议中碰巧就见到了一位应老师的女弟子,数理功底很扎实、演讲水平很出色,非常仰慕。

东南大学的王卫杰老师也赶过来指导大家,王老师和我们一起吃烧饼、聊天,丝毫没有副教授的架子,很nice。

日程表上,思喆、李健师兄第二天早上是包场,但是后来又加进来几场报告,最后思喆、李健师兄的报告都是急匆匆的飞过去了,很可惜。

3. 眼光犀利的商业公司

我没有特意逛商场、街市,但仅仅从本次R会议相关的人物、演讲就感觉到了上海的商业氛围之浓厚。

12月11号刚到上海后,托cloudly的福气,去和一位传奇色彩浓厚的Mr. Liu吃饭。Mr. Liu在一家很famous的大公司工作,是一位成熟的商业人士,他竟然是通过阅读文献—— 知道R——关注R Journal—— 发现国内第一届R会议的通讯——找到COS——得知第二次R会议消息的。在饭桌上,Mr. Liu谈笑风生,提到了很多顶级大牛、paper,让我觉得很汗颜。这年头越来越多的商业公司开始关注R了,看来R的确在商界、工业界产生了较大的影响,R的舞台也不只是学术界了。

Mongo solutions是本次R会议上海分会场的赞助商,这次有幸见识了中国区负责人Mr. Shao,发现Mr. Shao竟然如此年轻,真是英雄出少年啊。同样,Mongo solutions非常重视R,他们甚至为辉瑞公司开发过基于R的产品(我之前一直认为辉瑞的世界里只有SAS)。值得一提的是,他们在全球范围内赞助R会议,支持R的发展,最终达到学术圈和产业圈的双赢,这一点值得广大国内公司学习。目前他们还在招聘R数据分析师呢,有兴趣的朋友可以去尝试一下。

中芯国际集成电路制造(上海)有限公司是国内R的资深用户之一,他们充分发挥R的特性,使得很多分析工作轻松便捷。通过去年刘明大哥以及今年林光启经理的演讲,我不禁感叹“R就是生产力啊”。此外,还有很多朋友在台上台下谈到了R在企业界的各种应用,非常热闹。

倚天不出,谁与争锋?免费、绿色、强大的R肯定会得到越来越多商业公司的青睐。在以后的R会议中,希望得到越来越多商业公司的支持赞助,推动R在国内的发展,达到学界、企业界双赢、多赢的局面。

4. 无知者无畏的我们

好事者、无知者无畏,这是我对我们团队(我和三位学弟)的评价,本次会议中很多演讲者都是高校博士、教授以及企业中的佼佼者,而我们目前只有个高中文凭,却怀着一腔热血四处招摇,实在是无知者无畏。不过在招摇的过程中,我们的确丰富了知识、开拓了视野、碰撞了思想,也愈觉得自己是井底之蛙,因此也愈有改变现状的动力和方向。会议结束了,以后的重点就是吸取会议精神,扬长补短,奋勇前进了。

5. 两会之区别

最后扯一下个人眼中两会之区别,否则对不住“两会代表”的称号。

上海会场是较为严谨的会议室,貌似还有全程录像,再加上一批教授、博导、博士、国外朋友的莅临,气氛显得非常正式;而北京会场则自由很多。此外,上海会场中的商业氛围较浓,谈到了很多商业应用;而北京则更学术。最后要说的是,上海会场很爆满,门外面都站着人遥遥偷窥,而北京会场比较稀疏(当然两个会场的大小不一样)。

最后期待下一届R会议更精彩,也祝愿各位R user越来越强大。

第二届R会议随想

来去匆匆,期待已久的第二届R语言中国会议北京会场落下帷幕了;欢乐趣,离别苦,尽管非常留恋不舍,但诚如范兄在会议结束时感慨,天下无不散之筵席。紧急撤离之时,感动失落之余,谨记长路漫漫,在以后的日子里还需多多努力,不负众兄弟姐妹的殷切期望。先贴一个会议留影吧:
2nd-r-meeting2
感激,高兴,欣慰,惊诧,羡慕,惭愧,失落,抱歉?此时此刻我不知怎么来准确地表达。但可以肯定的是,感动+感激+感恩+感谢+感慨这几个词一直萦绕在我的世界中。在回来时拥挤的车厢内,我也分别问了三个学弟收获了什么,他们的回答非常一致:首先是感动,社区的温暖让大家感慨不已;第二才是具体性的技术,很长见识,也让大家认识到了自己的狭隘和不足。我一直认为,人生在世,情感是最最首要的,事业是第二的,两者也有相当程度的交互影响。在一个和谐、温馨的社区中,大家相互学习、交流合作、心心相印、肝胆相照本身不仅是一种财富,同时也能使大家相互学习、取长补短、共同进步,这或许就是“共产主义精神”的最好诠释吧。

1. 故事、人物篇

在之前在会议准备阶段,张兄、焦姐、关姐、邱兄、范兄、陈兄、蒋兄等会议组织者以及远在海外的谢兄都给了我们很大的支持、鼓励和帮助。考虑到准备时间仓促、甲流等原因,今年的R会议本来打算京沪两地都是小规模的,仅仅一天。而我们这边一下就是四个人报名,而且都是两会代表(人大会场+华师会场)加预备演讲,这么浩浩荡荡、兴师动众的,给会议安排制造了很大的麻烦。的确,R会议一年就这么一次,机会如此宝贵,而我们4个人厚着脸皮霸占这么多资源,本身就很过意不去,加之我们才疏学浅,能给大家带来的演讲价值有限,因此我们一直有种罪恶感,也曾经想着为了会议日程主动退出一个会场。但是遭到了邱兄、蒋兄、谢兄、潘兄等人的反对和鼓励,大家如此的支持让我们非常感动、非常惭愧。

在去人大之前,给亲爱的张老师发了邮件,张老师非常热情,还亲切地约我聊天吃饭。去了之后,在明德楼找到了他,聊了很长时间,谈到了学习、生活、网络等诸多方面。老师让我根据兴趣爱好自主选择方向,非常自由,并且说可以联系全国该方向的老师来请教。之后,老师又开车带我吃饭,在饭桌上,叮嘱我多多吃肉。我当天中午在火车上没有吃什么东西,因此谨遵教诲,在饭桌上非常放肆,饕肉餮菜,筷子一直没闲着。吃完之后老师又送我回了人大,让我感慨不已。我也时常扪心自问,我何德何能,蒙此殊遇啊。

4号晚上,我们到了人大统计学院机房,和邱兄、范兄、关姐、陈兄及一位非常可爱的人大师弟一起高兴地装了会议胸卡和资料袋,还戮力干掉了菁菁姐姐的一包很sweet的小橘子,期间大家还以会议横幅为背景拍了一些珍贵的照片。说到这里,想起第一届会议时候在10楼的应用统计研究中心装胸牌、资料的时候了,那时买的胸牌很难装,纸很软,胸牌套的口子很小,装一个很费劲。悉潭等人还在房间内拍照留影,我自己面像凶恶,一般不敢糟蹋相机和景观,就在谢兄的电脑上查了查邮件,瞻仰了一下谢兄一大架子的打印书稿。眨眼间,一年就这么过去了,人来人去、花落花开啊~

回到住处明德楼招待所之后,已经很晚了,见了阔别一年的悉潭兄弟,心里又默默感慨了一番;也给正复习考研的郑冰同学发了短信致以慰问。李程、高涛两位师弟第二天是首场讲座,压力很大,我们紧急排演了一遍,对原来的slides进行了适当地修改。等我睡得时候是两点多了,两位学弟熬到了三点多才睡。在此,向两位可爱的学弟表示钦佩和祝福,回想起此前的准备阶段,我时常比较苛责,给了他们很多压力甚至批评;而他们以博大的胸襟宽容了我的种种不好,始终没有记恨我,令我羞愧感激不已。作为学长我应该更加宽容才是,这方面他们比我做得好很多很多。

在明德楼招待所中,有种宾至如归的感觉,并不是这个招待所有多么nice,实际上这家招待所价格比较昂贵(150 per day)、服务比较一般,相同条件的在长沙最多就40元,让我真正觉得温馨的是在这里发生的故事。我是第三次去这家旅店了,第一次是参加第一届R会议,是在谢兄的鼓励下、陈钢师兄的带领下第一次杀到北京,学会了怎么坐地铁,陈钢师兄还带我去了教育部一趟。记得当时迎接我们的是余浩宇师兄,很周到、很温馨。在明德楼招待所中,我们和郑冰、詹鹏、悉潭等人开玩笑,逗乐子,玩得不亦乐乎。第二天晚上,陈钢师兄住同学那了,刚好丁国徽大哥从欧洲赶了过来,晚上我们就住在一起,还看了一小会电视,是关于《西游记》的拍摄历程的记录片,丁大哥很喜欢笑,很nice,很懂得享受生活,他给我展示了欧洲的货币,还送给我三枚硬币留作纪念,在当晚的宴席上,还不断为我倒啤酒。第二天,丁大哥耐心地听了我just-so-so的演讲,还让我把那个用环游全国省会城市的TSP路线图发给他,他说要拿那个去旅游,顿时让我觉得很温馨很有成就感。上午会场结束之后,丁大哥就匆匆地扛着行李离开了。下午会场刚一结束,我和陈钢师兄也匆匆离开了,刚好赶上火车。两年都是这样,匆匆而来,匆匆而去,沉淀下来的是感动和伴随感动的一份伤感。

第二次来这个招待所是保研面试时候,那时在人大统计机房查阅了附件的宾馆,敲定了这家,然后潘兄就送我过去,走的不是平常那条要穿越立交桥的小路,因为邱兄特地叮嘱了,平时那条不是正路、不安全。潘兄回去之后,我就温馨地独守空房。在人大面试的时候,邱兄、潘兄、李兄、蒋兄、左兄、王兄、范兄、陈兄、方姐等都给了我很大的鼓励支持,我想请大家吃顿饭的权利都被残酷而温馨地剥夺了。实际上,我的保研之路比较曲折,能来人大我都感到很惊奇。我是在厦大面试时候突然决定提前退场临时买机票来北京的,两地的面试的时间是冲突的,这个突然决定的原因有很多,包括COS长期以来对我的支持,包括邱兄、陈兄、谢兄的温暖协助和建议意见,尤其是和邱兄之前的聊天和通话,从某种程度来看,这个”突然决定“是偶然的,也是必然的。但我在人大的表现并不是很好,我觉得成功的概率并不大。我也在想,如果我被人大拒了,可能就去上财、华师等学校中的一所(当时貌似很盲目自信)。但是小概率事件发生了,或许这就是缘分吧。

在修改slides之时,打开我的mp3,赫然发现去年会议的资料还在里面,同样的会议、同样的旅店、同样的mp3、两份时隔一年的材料……,我顿时百感交集。我的mp3很少听,几乎没用过,去年还是拿着它去开会的,并且在插到连接投影仪的电脑的时候,发现有病毒,谢兄还让我回去杀杀我电脑上的毒;其实,我一直认为我的电脑比较绿色,我怀疑是插了陈钢师兄的电脑感染的,呵呵。

去年今日此门中,人面桃花相映红。人面不知何处去,桃花依旧笑春风。陈钢师兄、国徽大哥、谢兄、吴老师都飘扬过海,去追求人生的价值和梦想了。今年的会议由邱兄、范兄、陈兄等人掌舵,同样精彩,而以后的会议谁来主持?。

说到这里,必须要感谢低调、温馨、强大、奉献、细心、体贴、善良的邱兄和范兄等人了,是你们的付出让大家在温馨感动之时享受学术的趣味,目前我对此只能表示感动+感激+感恩+感谢+感慨,尽管都是苍白的。还有,这次原本打算好好会一会人大的各位好兄弟们,但是发现时间安排太紧了,闲暇时间太少,当然还有自身懒惰等原因,没有向广大nice, sweet 的兄弟们一一致敬,非常抱歉。

最后写给和我一起杀到北京的三位学弟以及所有中南大学统计交流协会的师弟师妹们,在大学四年的生活中,我已经是夕阳西下,而你们是旭日东升。在大学期间,我没有探索到多少真理,没有学到太多的知识,虚度了很多光影,我有的仅仅是在寻寻觅觅、磕磕碰碰之中的经验和教训;我深知环境的恶劣,也亲眼目睹一批又一批人在这里彷徨最终堕落。或许是受谢兄、COS等的影响,我希望能搭建一个平台,让大家相互勉励,共同进步。也就是我们协会的口号:“做平台,做气氛;促交流。促进步”。作为一名好事者,我自己深切体会到自己力量之绵薄,心有余而力不足,我自身的局限性很大,现在来看,平台也并没有搭建得多好,对你们或许起不到太大的帮助作用。目前我知道你们08级的学习气氛很浓厚,我已经非常欣慰了。

对中南大学统计交流协会R group的几位朋友们,我要再次感谢你们的宽容、努力和进步,你们在很多方面比我优秀很多很多,希望你们再接再砺,继续披荆斩棘、奋勇前进。我是个比较感性的人,很多方面不够理智,对你们没有做到像邱兄、思喆大哥那样慈祥、体贴、耐心,说话也很直,不怎么委婉。而你们一直对我非常信赖+支持,让我非常感动而又惭愧。沉舟侧畔千帆过,病树前头万木春,你们的未来一定光辉无比。我给你们每人都送了一本书,大体涵盖以下几个层面:哲学+历史+数学或统计,这个其实代表了我对学习教育的某种观点,希望你们不要仅仅死抓课本,适当探究学科哲学和学科历史是有必要的,而这个在国内是完全被忽视的。或许我是个喜欢空谈思想的人,但在实干之余还是希望你们稍稍注意一下。

2. 演讲、报告篇

5号6号两天的报告一共19篇。

(1) 开幕词、R的基础知识(陈堰平)

陈兄是本次会议的主席,在找工作的忙碌之中担此重任实属不易,并且我来人大读数理,就是被陈兄“撺掇”的;在演讲中,陈兄提到了R会议在国内的挖井人——谢兄,并抓出了谢兄的靓照,比较之后得出了他二人非常神似的结论。这让我想起了面试时候,几位老师说我也比较像谢兄,但得知我是甘肃人之后立马改口说不像,让我哭笑不得。而据陈兄说,我和谢兄后脑勺比较像,这个嘛,可能人的后脑勺都差不多……

(2) 统计图形概览及其在R下的实现(高涛和李程)

这是两位08级学弟的演讲题目,他们的幻灯片将近90页,准备了很长时间,主要参考了谢兄的《现代统计图形》,Statistics with R,R graph Gallery,Michael Friendly 的统计图片网页等很多材料。他们大一时候是数学大类方向,这个学期才接触统计知识,在准备的过程中往往觉得统计知识比较欠缺,为了充分理解图的含义,他们自主往前学习了很多后续的统计知识,熬了好多个通宵。尽管最终的演讲有几处理论错误,但是总体来说相当精彩,我从中也学到了很多东西。李程学弟怕时间不够,一路往过飞;而高涛不缓不急,娓娓道来,让做师兄的我松了一口气的同时很是汗颜。不过要批评的是他们最后忙中出错,把统计学院说成了数理统计学院,呵呵。

(3) RExcel应用数据挖掘方法现代发展趋势(关菁菁)

之前知道菁菁姐姐(忘了问到底是姐姐还是妹妹,姑且以姐姐称呼)是本次会议北京会务组的R core之一, 这次有幸得见真人版,很是荣幸。菁菁姐姐不仅幽默风趣、温柔大方,而且理论扎实、演讲很有条理,她提到了很多数据挖掘中的算法和方法,很多都是我之前没听过的,包括集成算法Ensemble Learning等,这个让我再次意识到了学校之间、个人之见的巨大差距。刘兄在会议闭幕时说,巾帼不让须眉,诚如此,汗颜中……

(4) R在食品标准研制中的应用与展望(钟其顶)

其实很早就在谢兄的博客中听过钟老师的大名了,这次有幸一见并能聆听教诲,很是高兴。民以食为天,钟老师谈到了统计学在食品中的应用,尤其说到了酒类判别分类问题。大家听了都非常馋,都想尝尝92年的陈酿是啥个滋味;不过肖楠师弟说葡萄酿酒太糟蹋了,葡萄要比葡萄酒好很多:) 钟老师还提到了统计数据问题,比较了食品行业和经济金融行业的数据质量,让场内玩数据的人感慨万千;的确,数据质量是统计的第一关,如果数据本身有问题,那后面的工作都是白费力气了,正所谓“垃圾进,垃圾出”。必须要说的是,钟老师相当和蔼可亲,还邀请我明年去他那里做客,非常感动。可惜的是,为了保证必要的记忆力我还不能大量喝酒,要不这一年一定好好锻炼酒量,争取到时喝他个天昏地暗(这个念头有点猥琐啊)。

(5) R环境安全特性初探与前瞻(肖楠)

学弟的作品,灵感来源于cos英文论坛上谢兄和颜兄的一个帖子,以此为源,小楠同学花了很长时间,深入研究了一下R的很多底层函数,在不同系统级web R中测试了R代码的潜在威胁,得到了一些很有意思的结论,很多听众都对学弟的演讲很感兴趣,so nice. 我也非常钦佩他的探索精神。这位肖学弟是典型的夜猫子,在这学期中时常五六点才睡觉(都是准备paper、slides、blog、课程学习等,倒没有不务正业),让我觉得很害怕、很担心,我也曾多次叮嘱他别睡那么晚(我是一两点)。身体是革命的本钱,在此我想以这句话同时告诫我们两人,希望我们以后能有一个良好的作息时间安排。

(6) Integrate R into Your C/C++ Application (宫雨)

宫雨老师的演讲相当有技术含量,他花了大量时间阅读了大量R的底层代码(Read the fucking code),指出了R底层之处的很多不足,并实现了由C/C++调用R的基本方法。其完美主义精神给人流下了深刻印象,同时也鞭策我们做事不要浅尝辄止。

(7) 地质环境调查监测研究中的R应用(刘永生)

刘老师是R的资深用户,据说是2001年(或2003年)就开始使用R,在工作中积累了大批函数,给我们分享了用R分析地质领域数据的优势所在,还和google地图结合在了一起,很好很强大!他说他们研究所以后招学生必须会R才要,语气、态度非常坚决!刘老师也是资深COS潜水员,这次能来会场为大家传经实在是我们的荣幸。

(8) R在灰色系统理论方面的应用(奚潭)

悉兄是唯一一位在去年、今年都和我住在明德楼招待所的哥们,这让多愁善感的我顿时感慨万千。桃花依旧笑春风,悉兄讲了国产的灰色理论在R中的实现,并打算写一个package,在此表示鼓励。悉兄问道有没有cran关于灰色理论的package,我觉得应该没有,这东西是国产的,并且走的路子和标准的统计方法不一样,模糊数学界的人关注多一点,统计学界的貌似很少。去上海时候,悉兄还要给我们带盐水鸭,好期望、好感动……

(9) R在大规模数据整理及自动化报告方面的应用(刘思喆)

时光白驹过隙,刘兄慈祥依旧,学弟戏称刘兄是加宽版的周总理。COS论坛R版版主、《153分钟学会R》的作者、长期为大家默默奉献R知识的刘兄的讲座给我印象很深,之前我并没有意识到自动化报告方面的重要意义,因为我做得东西都是一次性的,不需要太多重复,后来一次重复性很强的项目中才意识到这个问题的重要性。

(10) R在市场研究中的应用(祝迎春)

祝先生用统计软件近10年,接触了各种各样的统计软件,并且还把R和SPSS结合在了一起,为不喜欢coding的同志们提供了很大的便捷(不过也损失了很多优美的东西),大家对他的演讲都很诧异+惊叹。不过他在演讲中说R对他来说就是黑匣子,这个我(以及很多人)差点跳起来,我不知道他说的白匣子指什么。此外,祝先生的slides中还提到了我在COS论坛中提到的对smart visualization的一点看法,他说这个已经是实现了的,不过就他演示的例子来看,这个实现还处于社会主义初级之初级阶段,和我意识中的smart vis有很大差距。

(11) R心理学笔记(孙晓燕)

孙学姐从深圳赶来,实属不易,并且孙学姐决定演讲的小部分原因是受到了我的煽动和蛊惑,对此先得意一把,我也想当“统计人贩子”。孙学姐是李晓煦老师的弟子,正在出国准备中,百忙之中远道而来为大家展示R在心理学方面的应用真的很难得。

(12) 非参数方法与稳健性估计初探(左辰)

左兄依然很理论,先羡慕一下,今年左兄讲得东西我听懂了一小部分,觉得比较欣慰。去年左兄讲的是分位数回归,他排在我前面,当时貌似他们几个(以及丁兄、陈兄)超时很多,我的实际演讲开始时刻比我的理论上演讲结束时刻都要靠后。结果我就只有10min的时间,不过我的东西很easy,9分钟就完毕了,还剩一分钟回答了一个问题。今年我也希望左兄多讲一会,我肚子里面墨水少,也准备像去年一样快速结束战斗。不过今年左兄的时间安排很准,没有超一点时,小小失望一把。

(13) 矩阵可视化及 corrplot 包的介绍(魏太云)

都不好意思说我自己的演讲了,前面是左辰,后面是陈丽云,他们都讲得很精彩,而我讲得很没有逻辑、层次,我夹在中间很汗颜、尴尬。之后问了学弟,他们也说没有我平时和我们讲得好,惭愧惭愧。不过我的东西比较晃人眼球,40张slide,差不多40张图,看起来还比较炫,大家都没打瞌睡,北大的一位赵兄说这是他第一次听课,我觉得非常欣慰满足了。

(14) 在经济和计量中使用R (陈丽云)

惊艳全场,这个是我们对丽云演讲最综合的评价,丽云一直谦虚自己讲得不好,但大家的眼睛是雪亮的,她演讲的内容很有思想、很有见地,并且会场把握能力很好,用范兄的话说就是“一看就知道是老手”。丽云侃侃而谈,提到了经济学和统计学的误区、结合点等很多大家关注的东西,这个对于两个学科的发展都是很重要的。此外,丽云还在午休时间抽空给我安了Lyx,并大致讲解了其基本用法,之前也给我的blog提了一些建议,并回答了中南大学统计交流协会对经济学的很多问题,长达万字之多,让我们非常非常那个。大家还戏称我们是2nd R 会议的两朵乌云(名字里面都有个云字,并且都是灰黑衣服),这个和物理学中的两朵乌云是对应的,呵呵,荣幸一把先。

(15) R在近红外光谱分析中的应用(孙蝶)

又一个精彩的应用案例,提到了主成分分析、岭回归、Lasso、偏最小二乘法等,这个和菁菁姐姐、钟老师的演讲有相似之处,貌似Lasso、偏最小二乘异常火爆,可惜我不大懂,只能亡羊补牢啦。

(16) R在空间分析中的应用初探(王化儒)

王兄可是老朋友了,去年就和我们一道参加了R首届会议。这次王兄讲的是空间分析,还拉出来我的一张TSP漫游中国最短路线图,虽然是借此批判,我还是觉得非常荣幸。空间分析有很宽广的舞台,丽云就给我指出了经济学中很多需要空间分析的地方,我们数模之时,也时常碰见这种问题,只是用得很肤浅而已。再一次感慨统计舞台之广阔,也感慨统计和实际碰撞才会产生火花。

(17) 应用omd包对QSAR分析中分子结构参数矩阵的优化(马斌)

马兄也是老朋友了,马兄谈的是化学计量中的QSAR,我们学校化学院有人也在做QASR,我去忽悠过R,不过对QSAR一无所知。马兄在台上感慨说:眼睛一闭,会议就结束了;的确,这么好的交流机会真的太珍贵了,时间也很短,我和马兄都深知机会的宝贵性。

(18) R与WinBUGS(丁鹏)

也是老朋友,丁兄是北大耿直老师门下的高才生,长得十分秀气俊朗,天庭饱满,地阁方圆,印堂发亮,面带红光,天生贵族气质。丁兄不仅双扣、拱猪等纸牌游戏玩得烂熟,对统计方面的见解也比我深刻很多很多,以后去了北京一定多多请教他,呵呵。丁兄的题目是R与WinBUGS,这个和上海那边汤老师的题目是一致的。很惭愧,我目前对贝叶斯理论知之甚少,丁兄的演讲也听懂的不多,但大致的方向似乎了解到了。

(19) WebR-R 在线分析及在大气数据分析中的应用(黄志一)

一直以为黄志一应该是个gentleman,结果却是中科院计算所的一位靓丽姐姐,之前对他们的WebR系统一直很关注,也很看好,cos论坛上我也发过贴提过,大家对这个都很有兴趣。她们莅临会场来指导工作,我们也觉得很奇妙、很幸运(真不知他们是怎么得到R 会议这个消息的,难道他们也是灌水专业户?)。这个演讲是压轴好戏,大家提问是最多的。在计算量大的时候,我们自己的PC机很难满足,这时需要有个大型服务器来做这个工作,但是可惜的是我们自己时常得不到这个资源,而他们开发的Web-R就是很好的工作。先透漏一个好消息,该系统对中科院内部免费,中科院的同学们高兴去吧,同时也等着帮我往服务器上扔程序啊。

3. 展望篇

感慨万千,上面扯了很多,写了整个通宵,很乱很没条理,写到最后自己不知说了些什么,大家见谅。

最后期待下周的上海会场和以后的会议更加精彩成功,希望统计学在国内的发展更上一层楼。

太云于己丑年潇湘夜雨之夜

注:尽管貌似写了很多,但还是意犹未尽;很多精彩、感动的故事都没有写进去,也还有很多很多需要感谢的人没有一一提到;等下周上海会场之后再发感慨吧。

浅谈Buffon投针问题及其推广

## 注:此文也放在了cos主站上,这里顺便比较一下两个站点的阅读效果,评论请到cos主站上。
公元1777年,法国科学家D·布丰(D.Buffon 1707~1788)设计了一个巧夺天工的实验:往间距为a的平行线族之间投掷长为L 的针,可以计算出针和平行线相交的概率为:
pi_2ltopia
根据此式,可以得到pi的近似估计值,这的确是一个伟大的、奇妙而划时代的实验,可算是蒙特卡罗模拟中的鼻祖和经典了。在大多数教材上,这个概率都是用积分或二重积分计算得来的,比较繁琐,在matrix67的博客中,我欣慰而惊奇地看到了一种非常简便、直观的解法,感慨了一番,也稍微思考了一番。

期望值的一个最引人注目的性质就是,E(A+B)=E(A)+E(B),不管A和B是不是独立的。想象一根长度为L的铁丝,不管它被弯成了什么形状,扔到地上后它与地板上的平行线的交点个数的期望值都是一样的,并且这个值是和L成正比的。这是因为,我们可以把一根弯铁丝看作很多很多小的直线段构成;而每个充分小的直线段与平行线交点个数的期望都是相同的,那么由期望值的线性关系,整个弯铁丝与平行线交点数的期望就是c·L,其中c是某个固定的系数。为了求出这个系数是多少,我们只需要考虑一些特殊的情况。注意到,把一根长度为pi的铁丝弯成一个直径为1的圆,则把它扔到地上之后,它与这组平行线总有两个交点。这就是说,pi的c倍就等于2,即c等于2/pi。自然,一根单位长度的针与平行线的交点个数的期望值就是2/pi;而由于这根针与平行线要么没有交点,要么就只有一个交点,因此这个数值就相当于是针与平行线相交的概率了。——matrix67

matrix67是北大中文系的学生,他对数学思维的把握令我十分汗颜。期望的这条性质大家知道,但是离灵活运用却差得很远。根据上述理论,很容易得到,对于任何曲线,它和平行线族交点个数(Y)的期望都是:
pi_2stopia

其中S是该曲线周长。

如果要向平行线族之间投掷凸n边形(或者扩展到凸域,凸域就是过该图形任一点做切线,那么所有的点都在切线的同侧,也就是没有凹进去的部分),如果这个凸域的直径不大于平行线距离a的话,那么它和平行线族相交的概率为:

P_stopia

其中,S为凸区域的周长。
概率值刚好是交点个数期望的一半,这个也很直观,因为凸域和平行线的交点个数只有三种可能:

  1. 1个交点:当凸域和平行线相切,或者顶点重合
  2. 2个交点:这种情况是最常见的
  3. 无穷多个交点:有一边重合的时候

其中,第一种情况和第三种情况的几何概率为零,故概率值刚好是交点个数期望的一半(这里不太严谨,望大家指教)。把两根针并在一起,既可以构造一个闭区域,其与平行线相交的概率和交点个数都和上面理论一致。

如果投掷一般闭合区域的话,那么它和平行线族相交的概率依然为:

P_stopia

不过,此时S为该闭区域所生成的最小凸区域的周长。

因为尽管它们的周长不一样,和平行线交点的期望不一样,但是它们和平行线是否有交点的概率是一样的。下图中的类半圆图形就是月牙图形生成的最小凸区域,它们显然和平行线是否相交完全等价。

semicircle2

最后,要说的是直观思维的重要性,定理有千千万万,如果能用直观的形式将它们逐渐消化,那是最好不过的了,我在看书的时候经常能把一个定理啃下来,但是还是觉得对这个定理依然云里雾里的。对此,matrix67做了很精彩的评价:

数学学习真正悲哀的就是,记住了某个神奇而伟大的定理,看懂了其最严密的推导过程,但却始终没能直观地去理解它。虽然严密的推导是必要的,直观理解往往是不准确的,但如果能悟出一个让定理一瞬间变得很显然的解释,这不但是一件很酷的事,而且对定理更透彻的理解和更熟练的运用也很有帮助。

亩产万斤&所谓常识&认识论

前几天,钱老仙去了,钱老当年的一篇关于论述农作物产量极限的“亩产万斤”的文章被广大人民挖了出来,从而催生了各种各样的评论文章。本文不具体评价任何人,也不再阐述钱老此文的假设条件等,而是着重讨论科学的精神以及我对此的一些浅薄的思考。

在这些评论文章中,经常出现的类似下面的悲哀的语句:

1. 亩产绝对不可能超万斤,这是一个最基本的生活常识。在一个正常的社会国家里,其国民对这应该有最起码的认识。
2. 亩产几万斤理论如果能让人们实现一万斤,或是几千斤都行,但,现实中明明连理论值的几十分之一都不到,那这也算科学就太可笑了吧。
3. 连三岁小孩子都不会相信亩产万斤的鬼话。

所以说悲哀,是因为这些论断缺乏科学的精神,是一种人云亦云的愚蠢——没有调查数据,也没有分析论证,只有光秃秃结论,似乎是石头里面蹦出来的一样。无论是肯定还是否定一个命题,我都希望能看见其合理的理由。

我没有仔细查证文章所说的农作物究竟是什么,我仅仅列出我家(北方甘肃一个普通农民家庭)的作物收成数据:塑料大棚里面一亩地的茄子8个月(采摘期)平均收成4.3万斤、黄瓜6个月(采摘期)平均收成4.1万斤,一般田地里的萝卜、莴笋,收成都在1.5万斤以上,种玉米,收成2000斤左右。还要说明的是,我们家的产出在同一个村子里面也就是中等水平并且我们落后的边远小村庄在农业上根本谈不上先进。仅从这些来自落后边缘山区的数据来看,亩产万斤似乎也不是那么高不可攀。

但很可笑的是,我们一边吃着亩产万斤模式里培育出来的东西,而另一方面信誓旦旦地自以为否。很多持坚决否定意见的并不是农村的,对农产品的产出缺乏必要的认识。没有调查,就没有发言权。实在想发言,就得调查一番,但决不能以半个世纪前的经验数据、或者仅仅凭流言蜚语在自己心中的印象来判断目前和未来的状况。矛盾是发展的,当年的亩产万斤的确是奢望,但是,时过境迁,在今天、在未来应该是什么状况,最好还是研究一番,而不要轻易拍脑袋、下结论。

我们自小被填鸭惯了,学知识很多时候都是生吞活咽,没有一个主动消化的过程。长期以来,我们养成了这么一个习惯,就是严重的教条主义和人云亦云,学知识常常是是被动的接受和轻信,缺乏基本的辨别能力,更不用奢谈大胆假设、小心求证所体现的的怀疑精神和论证精神了。

因此,很多本该怀疑和论证的东西被扣上了“基本常识”的帽子,被奉为金科玉律而不可冒犯。在“所谓常识”的毒害下,我们根本没有去探讨能不能达到的具体原因,也不去调查实际情况,而只是轻率的、坚定地、信誓旦旦地接受了这一结论,仿佛最忠实的教徒供奉他们的真主一样——不需要任何理由,纯粹是一种心灵深处的信仰。

追本溯源,我们的认知缺失来自于传统文化的影响,也来自当今教育的失败。虽然,格物致知很早就被提出来了,但是历史上,格物致知这几个字我们完全不配说。大家都被束缚到严格的礼教之中,有创意的东西往往被视为奇技淫巧,礼法之所不容;我们灿烂的诸子百家的学说,没有一家像柏拉图学派、毕达哥拉斯学派等非常着重对客观世界的探索;我们的历史也近乎一部激烈的斗争史,崇尚的是权利、金钱和实用性,而不是有时看起来抽象、难以理解的数学;我们的认识论和《易经》一样飘渺,谈不上系统性和严谨性。由于认识论和价值文化的限制,我们的历史中不可能出现泰勒斯、毕达哥拉斯、牛顿、高斯、庞加莱等科学巨匠。

哲学是世界观和方法论的统一,而现在国内的中小学,哲学教育(尤其是认识论这一块)几乎完全是空白,课本中仅有的马克思哲学也被蒙上了政治色彩的面纱。而法国学生高考时,哲学是必考的,记得去年的题目似乎是论述“是否存在不可以被认识的事物”,试想,这样的题目我们学生能做成什么样?列出世界历史上彪炳史册的数学家、物理学家,你会发现他们几乎也都是清一色的哲学家,这个不是偶然,而是必然——人类需要哲学来武装自己,需要哲学来加深对事物的认识。我们一直叫嚷“我们缺乏大师”,但是却从来没想过为大师的成长创造条件。万丈高楼平地起,但是我们总是喜欢幻想空中楼阁巍然屹立。

扯得比较远了,有些观点可能有偏颇之处。最后,援引两句发人深省的话:

怀疑明显的东西;这样你将能清楚科学真理中那些含混不清的内容。任何能对明显的东西进行挑战的人,必定是十分勇敢的英雄。因为人们会认为这种挑战是疯狂的行为。 (克莱因《西方文化中的数学》)

我们先应该学会怀疑,再学会怀疑不那么明显的东西,再进一步学会怀疑明显的东西。我们离“怀疑明显的东西”这个层次还差好几个数量级。

最近在反复阅读20世纪最伟大的数学家之一克莱因先生的《西方文化中的数学》,此书将数学、哲学、历史、文化、文学结合起来谈,内容非常精彩,的确是大家手笔,我很喜欢。同时也感谢张祖贵先生,能将此书翻译得如此之好。

我们不能人云亦云,这不是科学精神,科学精神最重要的就是创新。……你是不是真正的创新,就看是不是敢于研究别人没有研究过的科学前沿问题,而不是别人已经说过的东西我们知道,没有说过的东西,我们就不知道。所谓优秀学生就是要有创新。……加州理工学院就有许多这样的大师、这样的怪人,决不随大流,敢于想别人不敢想的,做别人不敢做的。大家都说好的东西,在他看来很一般,没什么。没有这种精神,怎么会有创新!(钱学森)

我们要有属于自己的、理智的嘴巴和大脑,培养科学的精神,朝着“人格之独立,学术之自由”之路前进。本人对钱老的品格、治学无比敬佩,也谨以此文怀念钱老和勉励自己。

和08级学弟学妹交流

很高兴能和08级优秀的学弟学妹们交流,点击 这儿 观看今天的幻灯片。这两天有些感冒,讲得很不好。衷心祝愿08级同学能够叱咤统计界。

希望对统计交流协会感兴趣的同学多做准备,我们会尽快招新。有志于翻译R文档的可以提前自学点统计基础知识、了解点R和LaTeX,通过翻译R文档,希望我们可以提高统计、英语、软件操作、计算机、作文等各项技能,也希望能打开一扇通向外界的窗户,树立自己的品牌。

希望获取资料的同学请和我联系

此外,看见此文的学弟学妹请向这位大哥学习。

corrplot即将提交到CRAN

之前,corrplot包(部分效果见此)只能通过Rforge下载:

install.packages("corrplot", repos="http://R-Forge.R-project.org")

目前小bug都找的差不多了,加上近来比较忙碌,故打算提交到CRAN(大约五天之内会到CRAN上露脸吧),需要此包的朋友们就不用发email给我原始数据让我代劳了

此包以后的更新方向主要是变量的重排序方法:

1. Robinsonian
2. Dimension reduction
3. Heuristics
4. Block modeling
5. TSP

现在已经实现了主成分排序和各种系统聚类排序,其他的还得边学边卖,慢慢更新。相关矩阵可视化竟然能扯出这么多数学、统计甚至图论的东西,之前从没想到过,真是好玩。

注1:最初是在R会议上看见bjt大哥用椭圆图来表示相关矩阵,那时觉得很新鲜、很好玩,记忆很深刻。后来随便想了一阵子,写了个小函数来娱乐,却没想到滚雪球滚成了一个小package。

注2:曾经觉得自己折腾得太久了,很无聊,不过现在又觉得很好玩了,因为还有很多有趣的工作要做。

注3:corrplot包在Rforge上最近不太好用,等我忙完手头的事立即更新。

距离矩阵可视化&用TSP方法重排变量

前两周在北大上可视化的暑期班,有幸和五湖四海的朋友们一起聆听Kwan-Liu Ma、Han-Wei Shen、Alex Pang、Michelle Zhou、Hua-min Qu、Jean-Daniel Fekete、Jian Huang、田捷等老师的教诲,这些老师、研究人员在各自的领域内都非常优秀,部分还是界内大牛,更可敬的是他们都对学生很有感情、很有耐心——标准的德艺双馨。

整个暑期班的学习中,课程包含流体可视化、张量可视化、医学影像、信息可视化、时变可视化、智能可视化、并行可视化等很多方面,其中我最感兴趣的是:Jean-Daniel的Visualizing Social Networks using Hybrid Matrix/Node-Link Representations,因为和我之前的工作颇有渊源。

Jean-Daniel在做social network的时候,用到了类似相关矩阵可视化的东西,就是将两两之间的关系数字化,得到一个相似度矩阵,然后可视化这个矩阵。social network的传统做法是画个网络图,用节点和连线来表示,但这样很容易使整个图变得乱七八糟,什么也看不清。可视化相似度矩阵的方法则不存在这个问题,当然也会带来新的麻烦。

对于相似度矩阵的可视化,主要存在两个问题:
1. 如何用颜色、图形、线条表示这个矩阵,;
2. 如何对矩阵对应的变量进行重排序,使得相似的变量聚在一起,不相似的分开,这样我们可以通过可视化的图形直观地发掘变量之间内在的关系。

其中,第一点已经很成熟了,就是用方块、圆,再辅之以渐变色等,corrplot包的初期也就是做这些工作;而第二点,即如何重现排序变量,这会涉及到统计、数学知识,也是本问题的精髓之所在。之前,我仅知道用PCA、聚类等方法重排变量,也在corrplot包中实现了。而现在,我发现重排变量是个不小的问题,因为它本身非常重要,而PCA、聚类方法有时在效果或者速度上并不占优势,这就需要我们探索其他方法。Jean-Daniel在课堂上介绍了两个, Robinsonian和TSP。Robinsonian是个很数学的东西,我暂时还没有翻看论文,但是TSP(Travelling salesman problem)大家都再熟悉不过了,把这个东西灵活地用在变量排序中,的确是别出心裁,匪夷所思!!相似度、相关系数等本身都是距离,而TSP问题恰恰求最短路的。

TSP是个NP问题,但很幸运的是,我们目前已经有很多算法可以快速得到不错的解,R中有相关的包(TSP),包含了常见算法并提供了concorde软件(解TSP问题的优秀开源软件)的接口。这样一来,写个用TSP排列变量函数就方便很多了。

当然,除了TSP问题的求解难度问题之外,它在变量排序中还存在一个问题,就是TSP问题求出的最短路是个环线,所以在重排序的变量中,第一个和最后一个可能很相似,但在图中,它们一个最上、一个最下,离得最远。这个问题可以这么解决:

1. 不在一张图上吊死。用至少两张图,第二张图的变量顺序是第一个图的水平移动,比如第一个图中(A, B, C, D, E),而第二个图则是(D, E, A, B, C),这样第二个图中E和A就在一起了。当然,我们也可以通过观察图形,得到一个最容易接受的排序。这虽然是个解决方法,但是人总是贪婪而又懒惰的,一张图能看清楚的,绝不会看两张图,因此还需要探索一张图的方法。

2. 不在一个算法上吊死。既然TSP可以,那么图论中经典的Dijkstra 、Floyd算法也很可能适用,虽然这两个算法不是穷尽各个节点的,而是求各个节点之间的最小路程。比如,我们可以通过这两个算法辅助TSP算法确定起点和终点:我们可以求出网络中任意两点间的距离,然后找出最大距离所对应的两个节点。然后,将距离矩阵中这两个节点所对应的距离修改为0,这样得到的结果中这两个节点肯定挨在一起,这相当于将TSP环路算法转换为非环路算法。然后,将这两个节点分别设置为头尾,就可以得到一个粗糙的结果了。我在R中试了试,基于经典的mtcars数据,将得到的图展示出来:
vis-tsp-pca
从上图可以看到,两种排序方法还是比较相似的,并且效果都不错。这样确定起点终点的好处是,起点和终点对应线路是所有两两路程中最长的,这样再用非环线的TSP算法就不容易使排序失去意义。当然,这种方法还是很粗糙,比如计算量过大。实际中,我们可以通过别的方法更快地确定起始点和终点。

3. 不在一种介质上吊死。常见的纸、屏幕是平面的,如果我们有圆柱形式的立体介质,那么TSP得到的变量重排序就很有舞台了。将图绘制在圆柱上,首尾相接,看的时候转动圆柱即可。这个方法听起来的确有些扯,但是我觉得这种介质的出现不是没有可能(实际上,一些路边的广告就是这样的),当然这种方法的局限性也很大。

等手头的杂事忙完的话,corrplot也会逐步更新,添加一些变量排序的新方法。可视化不是简单的画图,背后的算法、模型非常重要

注:
1. 已经有很多文献讨论了矩阵的重排序,不过我都没看,先自己折腾一番。
2. 本文之前写得不太明了,因此重新修改了,2009-08-27,19:16。