最近更新了两次corrplot包,最新的0.60版本较之前的0.40进步较多。之所以取名为0.60版本,意味着此包的自评分终于上了60的及格分数,也有可能是这个包的最终版本。corrplot的应用范围很明确,就是中小矩阵 (<100*100) 的可视化,尤其是中小相关矩阵、距离矩阵、相似度矩阵等。

本次主要变动如下:

  1. 彻底解决了空白边距过大问题(尤其在文本标签较长时候),这个是个历史遗留问题,之前的方法比较原始简陋,已经有好多人发邮件投诉了(要不我也没动力更改);现在迭代来计算strwidth直至收敛,可以精确计算文本的长宽度了。控制文本大小的参数 tl.cex 也更精准了。
  2. 修订了参数名称和帮助文档,之前的参数取名、帮助文档太随意了。比如”PCA”排序就会让人错觉以为是第一主成分,目前更改成了更为妥当的”AOE”,是angular order of the eigenvectors的意思,具体参见文档。而第一主成分用”FPC”来表示了;此外,从效果来看,”AOE”排序结果一般都比”FPC”要好。提到矩阵排序,seriation包已经很NB了,更多方法可以参见此包。PS: 作者之一Kurt Hornik是R Core之一,是CRAN的主要维护人,每天都要check、答复新进来的包,德艺双馨、产出惊人,是绝对的教授中的战斗兽。
  3. 增加了zoom参数,来放缩原矩阵,使之可以轻松地应用到非[-1,1] 的矩阵;同时增加了参数cl.lim,使得颜色轴标签上只显示需要展示的部分。当然,此时颜色轴上的标签也会和缩放前的一样。
  4. 增加了横轴文本标签的旋转角度参数tl.srt,这个我虽不喜欢,但有人希望加这个方便阅读。总结来看,corrplot的每次更新都是有人发邮件说需要这样那样的功能……
  5. 增加、删除了一些函数。主要是加了corrMatOrder() 和corrplot.mixed () 函数来做矩阵排序和混合可视工作。删除了corrplot.*()系列不那么常用的函数。
  6. 进一步优化了代码并谨慎地选择了各个参数的默认值。虽然这个没有什么技术难度,但因为涉及到的很多都是绘图,审美之类的对我这种时常喜欢纠结的土人实在很麻烦…… 其实,更新最多的时间竟然花在了默认参数的选择之上,这个可能和我的星座有关!!

可视化是数据&模型&结果的美学展示,其中在图形展示这一块主观性较强,因此corrplot很注重各个细节,提供了很多选项让大家自己选择。但就因为这这样,corrplot函数的参数多达43+个,显得很累赘。这就是所谓的双刃剑吧。

此外,为了体验GitHub,我把corrplot主页从Rforge上迁移到了GitHub: https://github.com/taiyun/corrplot 如果有什么问题或者新的需求请到Issues那里提出。

再此外,我把R与最优化的文档也放在GitHub上了: https://github.com/taiyun/Optimization-using-R ,我自己近来空闲时间很少了,希望感兴趣的同学能对这份文档增删添补,以方便大家快速、便捷地查阅、使用。

为了使得本博文不那么呆板,文末以图会友吧:

 

十里平湖绿满天,玉簪暗暗惜华年。若得雨盖能相护,只羡鸳鸯不羡仙。

87版的电影《倩女幽魂》非常经典,里面的“十里平湖霜满天,寸寸青丝愁华年。对月形单望相护,只羡鸳鸯不羡仙。”让我着实陶醉,我曾经在七夕的时候给朋友们发过这段视频;不知道大家有没有被我雷到。

昨天听同学说《倩女幽魂》还有个60版的也很不错,古色古香的;我很好奇得看了下,才发现87版的诗是从60版的“十里平湖绿满天,玉簪暗暗惜华年。若得雨盖能相护,只羡鸳鸯不羡仙。”中修改而来的。玉簪暗暗惜华年,里面的“玉簪”指的是白莲花,小诗表的是宁采臣和聂小倩相互爱慕之情。本来想发一番感慨,但上了豆瓣看了些评论之后,我顿时觉得不用多此一举了。

玉簪暗暗惜华年

不过“玉簪暗暗惜华年”一句,让我很离奇也很自然地联想到了自学成才解决数理逻辑中Seetapun猜想的刘嘉忆学弟(原名刘路)。对于Seetapun猜想,我完全不了解,只是听说这是数理逻辑中比较有名的一个猜想。但我很早就知道他成天泡在图书馆,啃一些“硬骨头”:如莲之出淤泥而不染、濯清涟而不妖,能在浮华、堕落的大环境中整天泡在图书馆里,安静地、坚持不懈地做自己喜欢的事情。我没有想过能证明什么重要猜想,但我这份平淡的心态和坚持不懈却是我很最需要学习的。

此外,最近网络对此事的报道实在太多太杂,评论也很杂乱,比如在腾讯新浪科学网、新浪、腾讯微博等,其中有些评论还恶语中伤侯振挺老师;侯振挺老师很低调平和和蔼,是我本科阶段最敬重的老师,他在本科期间也自学解决了排队论中的三大难题之一“巴尔姆断言问题”,这一点倒和刘嘉忆学弟很像的。侯老师一向极为爱才惜才,对于刘嘉忆,也是如此;虽然专业不同,但侯老师还是很积极地努力为其争取资源并创造方便(比如让其提前毕业等),但一些媒体的新闻稿写得断章取义,很多不明真相的网民又开始骂人~

这次回沙一聚,得知刘嘉忆正在申请伯克利,他告诉我们他的GRE没有过申请学校的线,但既然他的文章能得到伯克利教授的赏识,我想对他来说GRE这个东西已经是可有可无的了。

刚刚得知刘嘉忆最近深受各路媒体烦扰,连朋友高涛学弟也被新华社骚扰。希望此事能迅速平静下来,长路漫漫,祝愿刘嘉忆能在学术的天空中飞得更高更远。

 

今天Google的时候突然发现搜索栏中右边多出了个语音符号:

点击了一下发现出现提示词“请开始说话”,说完之后自动进行语音识别,然后即时搜索。结果让我非常兴奋,因为太精准了,甚至用方言(兰州话)都可以!!有图有真相。

真相1:

真相2:

不过我试了半天谢益辉的名字,结果木有识别出来。

什么时候笔记本可以设置语音密码啊,开机验证身份时候直接喊一声就完事!

 

刚从合肥回来,参加了第一届数据挖掘邀请赛答辩。除了之后的一些琐碎的扫尾工作,数据挖掘这事终于可以消停下来了。

本次数据挖掘邀请赛是科大统计建模赛的一次升华,也是数据挖掘方面全国性竞赛的第一次尝试。反观整个比赛,总体而言还算是比较成功的,个人总结的一些原因如下(原因之间不独立且存在交互效应):

  • 题目很好。体现在两个方面:1. 数据很真实,题目很实在。用的是赞助公司真刀真枪的数据,非常宝贵,很有分析、挖掘的价值。2. 占尽了天时,当下SNS极其火爆,其中推荐系统更是创收赚钱的核心系统之一。
  • 取得了高校师生的大力支持和捧场。最终注册的队伍一共有1115支,抛去无效队伍及马甲,仍然远远高于我们的预期。除了主办方中国科技大学和中国人民大学在比赛组织方面的大力支持之外,我们发现还有很多学校的老师很积极的鼓励学生参加,有些队伍是老师看到了消息鼓励学生参加的,有些队伍的实验室在刚公布得奖消息就贴出了喜报。
  • 有科大、人大、统计之都的各位同学乐意跑腿干活,包括各种琐碎而又必须做的事情,比如和公司、老师、参赛队伍的各种交流。此外,微博、校内、校园BBS、各大论坛上的宣传也使竞赛能让感兴趣的同学及早知道消息,感谢SNS。
  • 得到了上海花千树信息科技有限公司的资金赞助,这点自然也很重要。

当然不足之处也很多,比如

  • 经验不丰富,很多细节没在一开始就考虑周全。比如注册系统太宽松、题目的微调、提交系统的出的一些问题。
  • 目前竞赛还处于探索性阶段,没有像数学建模那样有号召力和影响力,缺乏长期性的、有号召力、有经验的组织者,竞赛还没有形成一个固定的委员会来常年负责此事。

赛事花絮

  • 我们最开始的打算是只限于科大和人大两个发起方参赛,因为组织什么都比较麻烦,但最后才决定开放到所有高校。事先预计的参赛队队伍是30~40个,严重低估了大家的热情!
  • 刚开始纠结给竞赛取什么名字好,后来觉得还是冠以“全国”比较霸气也符合实际,后来也证实这一点。我们希望以后这个赛事能成长起来,每次都以一家公司的实际题目为背景,让更多学生都乐于参加,这样起点就会比数学建模高很多(数模的很多题目都很烂)。
  • 有好些海外学生、海外老师要以及业界人士要求参赛(有些只是为了索求数据),但出于保密、比赛经费等原因,还是很不好意思地拒绝了。
  • 注册队伍数目1115个,其中有效注册队伍在1000左右。当然在这1000个左右队伍中,有相当一部分是纯粹下载数据的,拿到了数据就杳无音讯了;还有一部分是马甲,用来多次在线提交以便测试效果。还有一部分队伍是做得不好,没有在线提交结果。
  • 公司给我们的是现金,当初和林妹妹背了个书包去拿钱,觉得一大推钱背起来挺舒服惬意的~~当然现在已经花光啦

此外,很感谢中科大统计与金融系师生的款待,他们都很随和、热情,没有距离感。尤其是张伟平老师,非常随和,我们和他在一起感觉和朋友一样,毫不拘束,并且还开车送我们去机场:) ……  张老师的主页在此:http://staff.ustc.edu.cn/~zwp/ ,其中教学链接中给出了他上过的课的电子材料,非常赞。我在本科的时候就发现了,没想到可以如此有缘,世界着实很小~

 

#########################跑题说囧事#####################

XX领导从合肥回北京的机票是我订的,但很狗血的是:我把票给订反了,弄成了北京到合肥!!他到了机场才发现(我们不是一个航班),只好再买张全价票了(幸好还有)。我这两天看见他都一直胆战心惊的(其实XX一直很淡定+和蔼),这么愚蠢可笑的错误肯定一辈子都忘不掉了。

 

##很意识流,很乱。不忍心看的读者直接下载最后的文章吧

转眼间,R会议已经从第一届办到了第四届,时间过得真快!

我之前参加过第一、二届中国R会议,觉得它为广大国内R用户提供了一个交流沟通的舞台,在这个舞台上,大家交流的最多的并不是R本身的技巧,而是面对某一个学术问题或者实际问题,强调问题分析和解决方法,而不是语言本身;并且整个社区都是其乐融融,很让人温馨感动的。我想这一点是很重要的,否则单纯一个语言什么的肯定没什么太多乐子。当然,各行各业的useR朋友们能因此契机聚在一起,聆听下自己不熟悉领域的朋友们面对的数据分析任务以及解决方案也是很能开阔眼界的。R本身只是一个软件或者语言,但由于设计理念以及其开源免费等特点,越来越多的数据分析方法在R上得以实现,也因为这个原因,R也已成长为一个平台环境。

记得我第一次参加中国R会议的时候还是诚惶诚恐的,怕自己讲的东西太肤浅被人笑话。好在组委会以及COS论坛上的朋友们都极为热心,在他们的怂恿撺掇之下才敢去献丑。而今天,我突然华丽转身成了会议的打杂人员之一,觉得很是诡异,很是离奇。

记得当初还写了一篇R和最优化的小文章,曾经想着多多充实一下,最终以比较完整的形式放出来(还想过出版什么的)。但后来事情越来越多,拖了很长时间,如今只好公开出来下载,欢迎大家批评指正。后面的旅游路线地图是截取自该文,表示TSP形式游玩中国34个省级行政中心的最短路线(只考虑球面距离,飞机路线应该差不多能符合图中要求),我觉得这个图还比较好玩,故贴上来乐一乐。

最后,欢迎大家参加第四届R会议,期待能听到大家的精彩演讲。

《R软件在最优化中的应用》GitHub主页(包括PDF文档下载)

 

 

 

 

之前R中一直用rimage包读图,但rimage功能较弱,并且早已被作者抛弃,成为无人照料的孤包。今天在寻找Lena数据的时候发现了一个R包 EBImage,非常好用,可以读取很多种格式的文件(通过ImageMagick),并且定制了一个非常适合查看图片的窗口;更重要的是这个包还包含了一些图像处理方面的算法,包括特征提取等。EBImage是放在Bioconductor上的,依赖于ImageMagick (>= 6.3.7)和GTK+ (> 2.6),安装方法、介绍等文件见此

Lena是个非常漂亮的瑞典模特,本来与数字图像处理等学术领域八竿子打不着。但是她的一次在花花公子杂志上的高调亮相,使她从此成为学术paper中玉照曝光率最高的女人(没有之一):因为她的那张图的上半身从此成为数字图像处理中的标准图像,被该领域的所有学者曾经用来测试自己的算法等(当然在测试的时候有可能也YY一下)。David C.Munson认为Lena这张图如此走红有两大原因:

  • 这张图像包含了各种细节、平滑区域、阴影和纹理,对测试各种图像处理算法很有用。它是一副很好的测试图像!
  • Lena图像里是一个很迷人的女子。所以不必奇怪图像处理领域里的人(大部分为男性)被一副迷人的图像吸引。

不仅如此,Lena还于1997年被邀请为嘉宾,参加了数字图像科学技术50周年学术会议。在会议上,她成了最受欢迎的人之一,她做了发言,并被无数的粉丝索取签名。在这些粉丝眼中,Lena可能不仅仅是一位漂亮的模特,或许更是一种学术情感的寄托。这不知会让多少该行业的女研究员们艳羡嫉妒啊~

八卦之后,简单给出EBImage包读图的例子,大家可以观察一下窗口界面。

require("EBImage")
## 绘制Lena
lenac = readImage(system.file("images", "lena-color.png", package="EBImage"))
display(lenac)
## 读取网络图像pi并绘制
XXlogo <- readImage("http://t.cn/hdqPPd")
display(XXlogo)

 

最近想稍微窥探一下统计中的小波分析之应用,找了本英国Bristol大学G.P. NASON写的Wavelet Methods in Statistics with R。不过翻开前言后,发现竟然出现了周恩来总理的赫赫大名,很是惊讶。细一看,原来是作者引用总理的话来进行类比说理,很佩服Nason渊博的历史知识啊。

随便翻译一下,中译文后面附上原文以正视听:

中国总理(1947-1976)周恩来先生在被问及他对法国大革命观点的时候如此回答,“现在评论还为时过早”;我觉得这个说法也同样适应于小波分析。尽管一些特殊小波的发现已经很有些历史了,但是真正能被称之为“小波理论”的主体架构的建立才仅仅是上个世纪80年代的事情。统计学中引入小波分析是在80年代末和90年代初,最初主要在曲线估计方面比较流行,后来以各种方式逐渐渗透到许多领域,比如生存分析、时间序列分析、图像处理、逆问题、变异数稳定变换等。

When Zhou Enlai, Premier of the People’s Republic of China (1949–1976), was asked his opinion of the French Revolution (1789–1799) he replied “It’s too early to tell”, see Rosenberg (1999). I believe that the same can be said about wavelets. Although particular wavelets were discovered many years ago, the substantial body of literature that we might today call ‘wavelet theory’ began to be established during the 1980s. Wavelets were introduced into statistics during the late 1980s and early 1990s, and they were initially popular in the curve estimation literature. From there they spread in different ways to many areas such as survival analysis, statistical time series analysis, statistical image processing, inverse problems, and variance stabilization.

后面的一段就简述了傅里叶级数的曲折历史和对小波分析的肯定与憧憬。傅里叶的那篇开天辟地巨作也着实命运忐忑,这篇论文经 J.-L.拉格朗日, P.-S.拉普拉斯, A.-M.勒让德等著名数学家审查,由于文中初始温度展开为三角级数的提法与拉格朗日关于三角级数的观点相矛盾,而遭拒绝。由于拉格朗日的强烈反对,傅里叶的论文无以得见天日。1811年傅立叶又提交了他修改后的论文,在里面提出了傅立叶级数和傅立叶积分的创新思想和方法,因而这篇关于热传导问题论文获得了1812年科学院大奖,但是这篇论文因为在论证方面仍然缺乏严密性而未能在科学院的院刊《科学院报告》上正式发表。傅里叶自然对此极为愤懑,但也别无他法。直到他1817年被选为科学院院士,并于1822年成为科学院的终身秘书后,才将他的这篇大作原封不动的放在了他的专著《热的解析理论》中。

法国大革命也是傅里叶级数引入的大历史背景;傅里叶级数引入之后,招来了科研界的各种尖锐的批评(参见Westheimer (2001))。尽管早期存在如此之多的争议,但我们发现在200年后,许多新的傅里叶方法如雨后春笋般的在各个领域中生根发芽。无疑,小波也是科学界的一次革命。它的许多有趣的特点很快得到了认可和欣赏,比如多尺度性、局部性、计算速度等。但其他一些重要问题(比如无条件基),还有待进一步研究。我希望本书能在较小的层面上创建一些新的小波方法。我也坚信小波分析将会在接下来的200年凸显其重要性并继续蓬勃发展。

The French Revolution was also the historical backdrop for the introduction of Fourier series which itself raised considerable objections from the scientific establishment of the day, see Westheimer (2001). Despite those early objections, we find that, 200 years later, many new Fourier techniques are regularly being invented in many different fields. Wavelets are also a true scientific revolution. Some of their interesting features are easy to appreciate: e.g., multiscale, localization, or speed. Other important aspects, such as the unconditional basis property, deserve to be better known. I hope that this book, in some small way, enables the creation of many new wavelet methods. Wavelet methods will be developed and important for another 200 years!

该书作者还写了个小波分析方面的R包wavethresh,为广大R用户提供了很大的便捷。里面有个图像数据颇为可爱,鄙人岂敢独享?奇图共欣赏,故放上来以飨大家。当然,本系列的后续博文会经常提到这只小熊的,并对其进行各种变换。

library("wavethresh")
data(teddy)
par(mar=c(0,0,0,0))
image(teddy)

 

PS1: 关于教科书中出现政治人物,恐怕太祖是空前绝后了,一个精彩案例在此

PS2:本博文纯属八卦,故小波分析系列号为零。后续博文会逐步讨论本人对小波分析的一些学习心得;不妥之处,还请大家多多莅临指点。

PS3:这个博客几乎一年没有更新了,从今日起会时常抽空写点东西,多做总结;这一年也是我事情最多的一年,感谢陪伴我、鼓励我、关心我的各位朋友和老师~~~

 

A fractal is “a rough or fragmented geometric shape that can be split into parts, each of which is (at least approximately) a reduced-size copy of the whole,”a property called self-similarity. Roots of mathematical interest in fractals can be traced back to the late 19th Century; however, the term “fractal” was coined by Benoît Mandelbrot in 1975 and was derived from the Latin fractus meaning “broken” or “fractured.” A mathematical fractal is based on an equation that undergoes iteration, a form of feedback based on recursion.

(form Wikipedia)

分形几何是几何学中的新分支,其维数可以是任意值。分形图形的一个重要特点是自相似性,据此性质可以人工构造出很多养眼的图片,这里给出四种常见的分形图。更多代码和讨论请移步COS论坛

1. 树叶

plot.leaf <- function(n=50000, col="green",cex=2){
  x <- c(.5, .5);
  plot(x[1], x[2], xlim=c(-3, 3), ylim =c(0, 10),type="n",xlab="",ylab="")
  p <- c( .85,  .92,  .99,  1.00);
  A <- rbind(c(.85, .04), c(-.04,.85), c(.20,-.26), c(.23,.22),
             c(-.15,.28), c(.26,.24),  c(0, 0), c(0, .16))
  B <- cbind(c(0, 1.6), c(0, 1.6), c(0,.44), c(0,0))

  for (i in 1:n){
     ran  <-  runif(1);
	 ind <- rank(c(p, ran), ties.method="min")[5]
	 x <- A[(2*ind-1):(2*ind),]%*%x + B[,ind]
    points(x[1],x[2], pch=".", cex=cex, col=col)
  }
}
#library(Cairo)
#CairoPNG()
par(mar=c(0,0,0,0)+0.1)
plot.leaf(cex=1.6)
box()
#dev.off()

koch

2. 树

koch

3. 三角

koch

4. 雪花

koch

 

来去匆匆,期待已久的第二届R语言中国会议北京会场落下帷幕了;欢乐趣,离别苦,尽管非常留恋不舍,但诚如范兄在会议结束时感慨,天下无不散之筵席。紧急撤离之时,感动失落之余,谨记长路漫漫,在以后的日子里还需多多努力,不负众兄弟姐妹的殷切期望。先贴一个会议留影吧:
2nd-r-meeting2
感激,高兴,欣慰,惊诧,羡慕,惭愧,失落,抱歉?此时此刻我不知怎么来准确地表达。但可以肯定的是,感动+感激+感恩+感谢+感慨这几个词一直萦绕在我的世界中。在回来时拥挤的车厢内,我也分别问了三个学弟收获了什么,他们的回答非常一致:首先是感动,社区的温暖让大家感慨不已;第二才是具体性的技术,很长见识,也让大家认识到了自己的狭隘和不足。我一直认为,人生在世,情感是最最首要的,事业是第二的,两者也有相当程度的交互影响。在一个和谐、温馨的社区中,大家相互学习、交流合作、心心相印、肝胆相照本身不仅是一种财富,同时也能使大家相互学习、取长补短、共同进步,这或许就是“共产主义精神”的最好诠释吧。

1. 故事、人物篇

在之前在会议准备阶段,张兄、焦姐、关姐、邱兄、范兄、陈兄、蒋兄等会议组织者以及远在海外的谢兄都给了我们很大的支持、鼓励和帮助。考虑到准备时间仓促、甲流等原因,今年的R会议本来打算京沪两地都是小规模的,仅仅一天。而我们这边一下就是四个人报名,而且都是两会代表(人大会场+华师会场)加预备演讲,这么浩浩荡荡、兴师动众的,给会议安排制造了很大的麻烦。的确,R会议一年就这么一次,机会如此宝贵,而我们4个人厚着脸皮霸占这么多资源,本身就很过意不去,加之我们才疏学浅,能给大家带来的演讲价值有限,因此我们一直有种罪恶感,也曾经想着为了会议日程主动退出一个会场。但是遭到了邱兄、蒋兄、谢兄、潘兄等人的反对和鼓励,大家如此的支持让我们非常感动、非常惭愧。

在去人大之前,给亲爱的张老师发了邮件,张老师非常热情,还亲切地约我聊天吃饭。去了之后,在明德楼找到了他,聊了很长时间,谈到了学习、生活、网络等诸多方面。老师让我根据兴趣爱好自主选择方向,非常自由,并且说可以联系全国该方向的老师来请教。之后,老师又开车带我吃饭,在饭桌上,叮嘱我多多吃肉。我当天中午在火车上没有吃什么东西,因此谨遵教诲,在饭桌上非常放肆,饕肉餮菜,筷子一直没闲着。吃完之后老师又送我回了人大,让我感慨不已。我也时常扪心自问,我何德何能,蒙此殊遇啊。

4号晚上,我们到了人大统计学院机房,和邱兄、范兄、关姐、陈兄及一位非常可爱的人大师弟一起高兴地装了会议胸卡和资料袋,还戮力干掉了菁菁姐姐的一包很sweet的小橘子,期间大家还以会议横幅为背景拍了一些珍贵的照片。说到这里,想起第一届会议时候在10楼的应用统计研究中心装胸牌、资料的时候了,那时买的胸牌很难装,纸很软,胸牌套的口子很小,装一个很费劲。悉潭等人还在房间内拍照留影,我自己面像凶恶,一般不敢糟蹋相机和景观,就在谢兄的电脑上查了查邮件,瞻仰了一下谢兄一大架子的打印书稿。眨眼间,一年就这么过去了,人来人去、花落花开啊~

回到住处明德楼招待所之后,已经很晚了,见了阔别一年的悉潭兄弟,心里又默默感慨了一番;也给正复习考研的郑冰同学发了短信致以慰问。李程、高涛两位师弟第二天是首场讲座,压力很大,我们紧急排演了一遍,对原来的slides进行了适当地修改。等我睡得时候是两点多了,两位学弟熬到了三点多才睡。在此,向两位可爱的学弟表示钦佩和祝福,回想起此前的准备阶段,我时常比较苛责,给了他们很多压力甚至批评;而他们以博大的胸襟宽容了我的种种不好,始终没有记恨我,令我羞愧感激不已。作为学长我应该更加宽容才是,这方面他们比我做得好很多很多。

在明德楼招待所中,有种宾至如归的感觉,并不是这个招待所有多么nice,实际上这家招待所价格比较昂贵(150 per day)、服务比较一般,相同条件的在长沙最多就40元,让我真正觉得温馨的是在这里发生的故事。我是第三次去这家旅店了,第一次是参加第一届R会议,是在谢兄的鼓励下、陈钢师兄的带领下第一次杀到北京,学会了怎么坐地铁,陈钢师兄还带我去了教育部一趟。记得当时迎接我们的是余浩宇师兄,很周到、很温馨。在明德楼招待所中,我们和郑冰、詹鹏、悉潭等人开玩笑,逗乐子,玩得不亦乐乎。第二天晚上,陈钢师兄住同学那了,刚好丁国徽大哥从欧洲赶了过来,晚上我们就住在一起,还看了一小会电视,是关于《西游记》的拍摄历程的记录片,丁大哥很喜欢笑,很nice,很懂得享受生活,他给我展示了欧洲的货币,还送给我三枚硬币留作纪念,在当晚的宴席上,还不断为我倒啤酒。第二天,丁大哥耐心地听了我just-so-so的演讲,还让我把那个用环游全国省会城市的TSP路线图发给他,他说要拿那个去旅游,顿时让我觉得很温馨很有成就感。上午会场结束之后,丁大哥就匆匆地扛着行李离开了。下午会场刚一结束,我和陈钢师兄也匆匆离开了,刚好赶上火车。两年都是这样,匆匆而来,匆匆而去,沉淀下来的是感动和伴随感动的一份伤感。

第二次来这个招待所是保研面试时候,那时在人大统计机房查阅了附件的宾馆,敲定了这家,然后潘兄就送我过去,走的不是平常那条要穿越立交桥的小路,因为邱兄特地叮嘱了,平时那条不是正路、不安全。潘兄回去之后,我就温馨地独守空房。在人大面试的时候,邱兄、潘兄、李兄、蒋兄、左兄、王兄、范兄、陈兄、方姐等都给了我很大的鼓励支持,我想请大家吃顿饭的权利都被残酷而温馨地剥夺了。实际上,我的保研之路比较曲折,能来人大我都感到很惊奇。我是在厦大面试时候突然决定提前退场临时买机票来北京的,两地的面试的时间是冲突的,这个突然决定的原因有很多,包括COS长期以来对我的支持,包括邱兄、陈兄、谢兄的温暖协助和建议意见,尤其是和邱兄之前的聊天和通话,从某种程度来看,这个”突然决定“是偶然的,也是必然的。但我在人大的表现并不是很好,我觉得成功的概率并不大。我也在想,如果我被人大拒了,可能就去上财、华师等学校中的一所(当时貌似很盲目自信)。但是小概率事件发生了,或许这就是缘分吧。

在修改slides之时,打开我的mp3,赫然发现去年会议的资料还在里面,同样的会议、同样的旅店、同样的mp3、两份时隔一年的材料……,我顿时百感交集。我的mp3很少听,几乎没用过,去年还是拿着它去开会的,并且在插到连接投影仪的电脑的时候,发现有病毒,谢兄还让我回去杀杀我电脑上的毒;其实,我一直认为我的电脑比较绿色,我怀疑是插了陈钢师兄的电脑感染的,呵呵。

去年今日此门中,人面桃花相映红。人面不知何处去,桃花依旧笑春风。陈钢师兄、国徽大哥、谢兄、吴老师都飘扬过海,去追求人生的价值和梦想了。今年的会议由邱兄、范兄、陈兄等人掌舵,同样精彩,而以后的会议谁来主持?。

说到这里,必须要感谢低调、温馨、强大、奉献、细心、体贴、善良的邱兄和范兄等人了,是你们的付出让大家在温馨感动之时享受学术的趣味,目前我对此只能表示感动+感激+感恩+感谢+感慨,尽管都是苍白的。还有,这次原本打算好好会一会人大的各位好兄弟们,但是发现时间安排太紧了,闲暇时间太少,当然还有自身懒惰等原因,没有向广大nice, sweet 的兄弟们一一致敬,非常抱歉。

最后写给和我一起杀到北京的三位学弟以及所有中南大学统计交流协会的师弟师妹们,在大学四年的生活中,我已经是夕阳西下,而你们是旭日东升。在大学期间,我没有探索到多少真理,没有学到太多的知识,虚度了很多光影,我有的仅仅是在寻寻觅觅、磕磕碰碰之中的经验和教训;我深知环境的恶劣,也亲眼目睹一批又一批人在这里彷徨最终堕落。或许是受谢兄、COS等的影响,我希望能搭建一个平台,让大家相互勉励,共同进步。也就是我们协会的口号:“做平台,做气氛;促交流。促进步”。作为一名好事者,我自己深切体会到自己力量之绵薄,心有余而力不足,我自身的局限性很大,现在来看,平台也并没有搭建得多好,对你们或许起不到太大的帮助作用。目前我知道你们08级的学习气氛很浓厚,我已经非常欣慰了。

对中南大学统计交流协会R group的几位朋友们,我要再次感谢你们的宽容、努力和进步,你们在很多方面比我优秀很多很多,希望你们再接再砺,继续披荆斩棘、奋勇前进。我是个比较感性的人,很多方面不够理智,对你们没有做到像邱兄、思喆大哥那样慈祥、体贴、耐心,说话也很直,不怎么委婉。而你们一直对我非常信赖+支持,让我非常感动而又惭愧。沉舟侧畔千帆过,病树前头万木春,你们的未来一定光辉无比。我给你们每人都送了一本书,大体涵盖以下几个层面:哲学+历史+数学或统计,这个其实代表了我对学习教育的某种观点,希望你们不要仅仅死抓课本,适当探究学科哲学和学科历史是有必要的,而这个在国内是完全被忽视的。或许我是个喜欢空谈思想的人,但在实干之余还是希望你们稍稍注意一下。

2. 演讲、报告篇

5号6号两天的报告一共19篇。

(1) 开幕词、R的基础知识(陈堰平)

陈兄是本次会议的主席,在找工作的忙碌之中担此重任实属不易,并且我来人大读数理,就是被陈兄“撺掇”的;在演讲中,陈兄提到了R会议在国内的挖井人——谢兄,并抓出了谢兄的靓照,比较之后得出了他二人非常神似的结论。这让我想起了面试时候,几位老师说我也比较像谢兄,但得知我是甘肃人之后立马改口说不像,让我哭笑不得。而据陈兄说,我和谢兄后脑勺比较像,这个嘛,可能人的后脑勺都差不多……

(2) 统计图形概览及其在R下的实现(高涛和李程)

这是两位08级学弟的演讲题目,他们的幻灯片将近90页,准备了很长时间,主要参考了谢兄的《现代统计图形》,Statistics with R,R graph Gallery,Michael Friendly 的统计图片网页等很多材料。他们大一时候是数学大类方向,这个学期才接触统计知识,在准备的过程中往往觉得统计知识比较欠缺,为了充分理解图的含义,他们自主往前学习了很多后续的统计知识,熬了好多个通宵。尽管最终的演讲有几处理论错误,但是总体来说相当精彩,我从中也学到了很多东西。李程学弟怕时间不够,一路往过飞;而高涛不缓不急,娓娓道来,让做师兄的我松了一口气的同时很是汗颜。不过要批评的是他们最后忙中出错,把统计学院说成了数理统计学院,呵呵。

(3) RExcel应用数据挖掘方法现代发展趋势(关菁菁)

之前知道菁菁姐姐(忘了问到底是姐姐还是妹妹,姑且以姐姐称呼)是本次会议北京会务组的R core之一, 这次有幸得见真人版,很是荣幸。菁菁姐姐不仅幽默风趣、温柔大方,而且理论扎实、演讲很有条理,她提到了很多数据挖掘中的算法和方法,很多都是我之前没听过的,包括集成算法Ensemble Learning等,这个让我再次意识到了学校之间、个人之见的巨大差距。刘兄在会议闭幕时说,巾帼不让须眉,诚如此,汗颜中……

(4) R在食品标准研制中的应用与展望(钟其顶)

其实很早就在谢兄的博客中听过钟老师的大名了,这次有幸一见并能聆听教诲,很是高兴。民以食为天,钟老师谈到了统计学在食品中的应用,尤其说到了酒类判别分类问题。大家听了都非常馋,都想尝尝92年的陈酿是啥个滋味;不过肖楠师弟说葡萄酿酒太糟蹋了,葡萄要比葡萄酒好很多:) 钟老师还提到了统计数据问题,比较了食品行业和经济金融行业的数据质量,让场内玩数据的人感慨万千;的确,数据质量是统计的第一关,如果数据本身有问题,那后面的工作都是白费力气了,正所谓“垃圾进,垃圾出”。必须要说的是,钟老师相当和蔼可亲,还邀请我明年去他那里做客,非常感动。可惜的是,为了保证必要的记忆力我还不能大量喝酒,要不这一年一定好好锻炼酒量,争取到时喝他个天昏地暗(这个念头有点猥琐啊)。

(5) R环境安全特性初探与前瞻(肖楠)

学弟的作品,灵感来源于cos英文论坛上谢兄和颜兄的一个帖子,以此为源,小楠同学花了很长时间,深入研究了一下R的很多底层函数,在不同系统级web R中测试了R代码的潜在威胁,得到了一些很有意思的结论,很多听众都对学弟的演讲很感兴趣,so nice. 我也非常钦佩他的探索精神。这位肖学弟是典型的夜猫子,在这学期中时常五六点才睡觉(都是准备paper、slides、blog、课程学习等,倒没有不务正业),让我觉得很害怕、很担心,我也曾多次叮嘱他别睡那么晚(我是一两点)。身体是革命的本钱,在此我想以这句话同时告诫我们两人,希望我们以后能有一个良好的作息时间安排。

(6) Integrate R into Your C/C++ Application (宫雨)

宫雨老师的演讲相当有技术含量,他花了大量时间阅读了大量R的底层代码(Read the fucking code),指出了R底层之处的很多不足,并实现了由C/C++调用R的基本方法。其完美主义精神给人流下了深刻印象,同时也鞭策我们做事不要浅尝辄止。

(7) 地质环境调查监测研究中的R应用(刘永生)

刘老师是R的资深用户,据说是2001年(或2003年)就开始使用R,在工作中积累了大批函数,给我们分享了用R分析地质领域数据的优势所在,还和google地图结合在了一起,很好很强大!他说他们研究所以后招学生必须会R才要,语气、态度非常坚决!刘老师也是资深COS潜水员,这次能来会场为大家传经实在是我们的荣幸。

(8) R在灰色系统理论方面的应用(奚潭)

悉兄是唯一一位在去年、今年都和我住在明德楼招待所的哥们,这让多愁善感的我顿时感慨万千。桃花依旧笑春风,悉兄讲了国产的灰色理论在R中的实现,并打算写一个package,在此表示鼓励。悉兄问道有没有cran关于灰色理论的package,我觉得应该没有,这东西是国产的,并且走的路子和标准的统计方法不一样,模糊数学界的人关注多一点,统计学界的貌似很少。去上海时候,悉兄还要给我们带盐水鸭,好期望、好感动……

(9) R在大规模数据整理及自动化报告方面的应用(刘思喆)

时光白驹过隙,刘兄慈祥依旧,学弟戏称刘兄是加宽版的周总理。COS论坛R版版主、《153分钟学会R》的作者、长期为大家默默奉献R知识的刘兄的讲座给我印象很深,之前我并没有意识到自动化报告方面的重要意义,因为我做得东西都是一次性的,不需要太多重复,后来一次重复性很强的项目中才意识到这个问题的重要性。

(10) R在市场研究中的应用(祝迎春)

祝先生用统计软件近10年,接触了各种各样的统计软件,并且还把R和SPSS结合在了一起,为不喜欢coding的同志们提供了很大的便捷(不过也损失了很多优美的东西),大家对他的演讲都很诧异+惊叹。不过他在演讲中说R对他来说就是黑匣子,这个我(以及很多人)差点跳起来,我不知道他说的白匣子指什么。此外,祝先生的slides中还提到了我在COS论坛中提到的对smart visualization的一点看法,他说这个已经是实现了的,不过就他演示的例子来看,这个实现还处于社会主义初级之初级阶段,和我意识中的smart vis有很大差距。

(11) R心理学笔记(孙晓燕)

孙学姐从深圳赶来,实属不易,并且孙学姐决定演讲的小部分原因是受到了我的煽动和蛊惑,对此先得意一把,我也想当“统计人贩子”。孙学姐是李晓煦老师的弟子,正在出国准备中,百忙之中远道而来为大家展示R在心理学方面的应用真的很难得。

(12) 非参数方法与稳健性估计初探(左辰)

左兄依然很理论,先羡慕一下,今年左兄讲得东西我听懂了一小部分,觉得比较欣慰。去年左兄讲的是分位数回归,他排在我前面,当时貌似他们几个(以及丁兄、陈兄)超时很多,我的实际演讲开始时刻比我的理论上演讲结束时刻都要靠后。结果我就只有10min的时间,不过我的东西很easy,9分钟就完毕了,还剩一分钟回答了一个问题。今年我也希望左兄多讲一会,我肚子里面墨水少,也准备像去年一样快速结束战斗。不过今年左兄的时间安排很准,没有超一点时,小小失望一把。

(13) 矩阵可视化及 corrplot 包的介绍(魏太云)

都不好意思说我自己的演讲了,前面是左辰,后面是陈丽云,他们都讲得很精彩,而我讲得很没有逻辑、层次,我夹在中间很汗颜、尴尬。之后问了学弟,他们也说没有我平时和我们讲得好,惭愧惭愧。不过我的东西比较晃人眼球,40张slide,差不多40张图,看起来还比较炫,大家都没打瞌睡,北大的一位赵兄说这是他第一次听课,我觉得非常欣慰满足了。

(14) 在经济和计量中使用R (陈丽云)

惊艳全场,这个是我们对丽云演讲最综合的评价,丽云一直谦虚自己讲得不好,但大家的眼睛是雪亮的,她演讲的内容很有思想、很有见地,并且会场把握能力很好,用范兄的话说就是“一看就知道是老手”。丽云侃侃而谈,提到了经济学和统计学的误区、结合点等很多大家关注的东西,这个对于两个学科的发展都是很重要的。此外,丽云还在午休时间抽空给我安了Lyx,并大致讲解了其基本用法,之前也给我的blog提了一些建议,并回答了中南大学统计交流协会对经济学的很多问题,长达万字之多,让我们非常非常那个。大家还戏称我们是2nd R 会议的两朵乌云(名字里面都有个云字,并且都是灰黑衣服),这个和物理学中的两朵乌云是对应的,呵呵,荣幸一把先。

(15) R在近红外光谱分析中的应用(孙蝶)

又一个精彩的应用案例,提到了主成分分析、岭回归、Lasso、偏最小二乘法等,这个和菁菁姐姐、钟老师的演讲有相似之处,貌似Lasso、偏最小二乘异常火爆,可惜我不大懂,只能亡羊补牢啦。

(16) R在空间分析中的应用初探(王化儒)

王兄可是老朋友了,去年就和我们一道参加了R首届会议。这次王兄讲的是空间分析,还拉出来我的一张TSP漫游中国最短路线图,虽然是借此批判,我还是觉得非常荣幸。空间分析有很宽广的舞台,丽云就给我指出了经济学中很多需要空间分析的地方,我们数模之时,也时常碰见这种问题,只是用得很肤浅而已。再一次感慨统计舞台之广阔,也感慨统计和实际碰撞才会产生火花。

(17) 应用omd包对QSAR分析中分子结构参数矩阵的优化(马斌)

马兄也是老朋友了,马兄谈的是化学计量中的QSAR,我们学校化学院有人也在做QASR,我去忽悠过R,不过对QSAR一无所知。马兄在台上感慨说:眼睛一闭,会议就结束了;的确,这么好的交流机会真的太珍贵了,时间也很短,我和马兄都深知机会的宝贵性。

(18) R与WinBUGS(丁鹏)

也是老朋友,丁兄是北大耿直老师门下的高才生,长得十分秀气俊朗,天庭饱满,地阁方圆,印堂发亮,面带红光,天生贵族气质。丁兄不仅双扣、拱猪等纸牌游戏玩得烂熟,对统计方面的见解也比我深刻很多很多,以后去了北京一定多多请教他,呵呵。丁兄的题目是R与WinBUGS,这个和上海那边汤老师的题目是一致的。很惭愧,我目前对贝叶斯理论知之甚少,丁兄的演讲也听懂的不多,但大致的方向似乎了解到了。

(19) WebR-R 在线分析及在大气数据分析中的应用(黄志一)

一直以为黄志一应该是个gentleman,结果却是中科院计算所的一位靓丽姐姐,之前对他们的WebR系统一直很关注,也很看好,cos论坛上我也发过贴提过,大家对这个都很有兴趣。她们莅临会场来指导工作,我们也觉得很奇妙、很幸运(真不知他们是怎么得到R 会议这个消息的,难道他们也是灌水专业户?)。这个演讲是压轴好戏,大家提问是最多的。在计算量大的时候,我们自己的PC机很难满足,这时需要有个大型服务器来做这个工作,但是可惜的是我们自己时常得不到这个资源,而他们开发的Web-R就是很好的工作。先透漏一个好消息,该系统对中科院内部免费,中科院的同学们高兴去吧,同时也等着帮我往服务器上扔程序啊。

3. 展望篇

感慨万千,上面扯了很多,写了整个通宵,很乱很没条理,写到最后自己不知说了些什么,大家见谅。

最后期待下周的上海会场和以后的会议更加精彩成功,希望统计学在国内的发展更上一层楼。

太云于己丑年潇湘夜雨之夜

注:尽管貌似写了很多,但还是意犹未尽;很多精彩、感动的故事都没有写进去,也还有很多很多需要感谢的人没有一一提到;等下周上海会场之后再发感慨吧。

© 2010 优秀是一种习惯 taiyun.wei@cos.name Suffusion theme by Sayontan Sinha