最近更新了两次corrplot包,最新的0.60版本较之前的0.40进步较多。之所以取名为0.60版本,意味着此包的自评分终于上了60的及格分数,也有可能是这个包的最终版本。corrplot的应用范围很明确,就是中小矩阵 (<100*100) 的可视化,尤其是中小相关矩阵、距离矩阵、相似度矩阵等。

本次主要变动如下:

  1. 彻底解决了空白边距过大问题(尤其在文本标签较长时候),这个是个历史遗留问题,之前的方法比较原始简陋,已经有好多人发邮件投诉了(要不我也没动力更改);现在迭代来计算strwidth直至收敛,可以精确计算文本的长宽度了。控制文本大小的参数 tl.cex 也更精准了。
  2. 修订了参数名称和帮助文档,之前的参数取名、帮助文档太随意了。比如”PCA”排序就会让人错觉以为是第一主成分,目前更改成了更为妥当的”AOE”,是angular order of the eigenvectors的意思,具体参见文档。而第一主成分用”FPC”来表示了;此外,从效果来看,”AOE”排序结果一般都比”FPC”要好。提到矩阵排序,seriation包已经很NB了,更多方法可以参见此包。PS: 作者之一Kurt Hornik是R Core之一,是CRAN的主要维护人,每天都要check、答复新进来的包,德艺双馨、产出惊人,是绝对的教授中的战斗兽。
  3. 增加了zoom参数,来放缩原矩阵,使之可以轻松地应用到非[-1,1] 的矩阵;同时增加了参数cl.lim,使得颜色轴标签上只显示需要展示的部分。当然,此时颜色轴上的标签也会和缩放前的一样。
  4. 增加了横轴文本标签的旋转角度参数tl.srt,这个我虽不喜欢,但有人希望加这个方便阅读。总结来看,corrplot的每次更新都是有人发邮件说需要这样那样的功能……
  5. 增加、删除了一些函数。主要是加了corrMatOrder() 和corrplot.mixed () 函数来做矩阵排序和混合可视工作。删除了corrplot.*()系列不那么常用的函数。
  6. 进一步优化了代码并谨慎地选择了各个参数的默认值。虽然这个没有什么技术难度,但因为涉及到的很多都是绘图,审美之类的对我这种时常喜欢纠结的土人实在很麻烦…… 其实,更新最多的时间竟然花在了默认参数的选择之上,这个可能和我的星座有关!!

可视化是数据&模型&结果的美学展示,其中在图形展示这一块主观性较强,因此corrplot很注重各个细节,提供了很多选项让大家自己选择。但就因为这这样,corrplot函数的参数多达43+个,显得很累赘。这就是所谓的双刃剑吧。

此外,为了体验GitHub,我把corrplot主页从Rforge上迁移到了GitHub: https://github.com/taiyun/corrplot 如果有什么问题或者新的需求请到Issues那里提出。

再此外,我把R与最优化的文档也放在GitHub上了: https://github.com/taiyun/Optimization-using-R ,我自己近来空闲时间很少了,希望感兴趣的同学能对这份文档增删添补,以方便大家快速、便捷地查阅、使用。

为了使得本博文不那么呆板,文末以图会友吧:

 

前几天更新了下corrplot,修正了一个配色上的bug(感谢陈钢师兄),并且加了我个人不太喜欢的混合形式的矩阵可视化方法(就是上下三角分别用两种形式画图,虽然花哨,但我觉得不伦不类的);萝卜青菜,各有所爱,经常有人发邮件建议加入这个功能,故修改了下函数来满足各路神仙的需求。corrplot当前的示例图片见此(共58张图片)。

新添加的混合方法的示例代码和图片如下,一个方圆、一个扁圆(个人觉得像是用来把玩的工艺品,而不是统计图形了):

library("corrplot")
corr <- cor(mtcars)
## 天圆地方
corrplot(corr,order="PCA",type="upper",addtextlabel="no")
corrplot(corr,add=TRUE, type="lower", method="square",order="PCA",addtextlabel="d")
## 天圆地扁
corrplot(corr,order="PCA",type="upper",addtextlabel="no")
corrplot(corr,add=TRUE, type="lower", method="ell",order="PCA",addtextlabel="d")

天圆地方

天圆地扁

不知道下一次更新又是什么时候,不过我希望最终版本号能比较靠近1.00~

############ 跑题 ###########

《长恨歌》曰:春风桃李花开日,秋雨梧桐叶落时。我觉得这两句极尽春秋之神韵,寥寥十四字意境全出,且留给读者无尽的遐想。今儿天气有变,让我稍稍嗅到了秋天的味道,虽未落雨,但还是在标题中加上一句“秋雨梧桐叶落时”,让corrplot乘机也附庸下风雅。

此外,天气转凉,暖气也快来了,但我还是干板+凉席,并且觉得很是惬意,不知在北京我会不会一年四季都这么继续下去。

 

##很意识流,很乱。不忍心看的读者直接下载最后的文章吧

转眼间,R会议已经从第一届办到了第四届,时间过得真快!

我之前参加过第一、二届中国R会议,觉得它为广大国内R用户提供了一个交流沟通的舞台,在这个舞台上,大家交流的最多的并不是R本身的技巧,而是面对某一个学术问题或者实际问题,强调问题分析和解决方法,而不是语言本身;并且整个社区都是其乐融融,很让人温馨感动的。我想这一点是很重要的,否则单纯一个语言什么的肯定没什么太多乐子。当然,各行各业的useR朋友们能因此契机聚在一起,聆听下自己不熟悉领域的朋友们面对的数据分析任务以及解决方案也是很能开阔眼界的。R本身只是一个软件或者语言,但由于设计理念以及其开源免费等特点,越来越多的数据分析方法在R上得以实现,也因为这个原因,R也已成长为一个平台环境。

记得我第一次参加中国R会议的时候还是诚惶诚恐的,怕自己讲的东西太肤浅被人笑话。好在组委会以及COS论坛上的朋友们都极为热心,在他们的怂恿撺掇之下才敢去献丑。而今天,我突然华丽转身成了会议的打杂人员之一,觉得很是诡异,很是离奇。

记得当初还写了一篇R和最优化的小文章,曾经想着多多充实一下,最终以比较完整的形式放出来(还想过出版什么的)。但后来事情越来越多,拖了很长时间,如今只好公开出来下载,欢迎大家批评指正。后面的旅游路线地图是截取自该文,表示TSP形式游玩中国34个省级行政中心的最短路线(只考虑球面距离,飞机路线应该差不多能符合图中要求),我觉得这个图还比较好玩,故贴上来乐一乐。

最后,欢迎大家参加第四届R会议,期待能听到大家的精彩演讲。

《R软件在最优化中的应用》GitHub主页(包括PDF文档下载)

 

 

 

 

之前R中一直用rimage包读图,但rimage功能较弱,并且早已被作者抛弃,成为无人照料的孤包。今天在寻找Lena数据的时候发现了一个R包 EBImage,非常好用,可以读取很多种格式的文件(通过ImageMagick),并且定制了一个非常适合查看图片的窗口;更重要的是这个包还包含了一些图像处理方面的算法,包括特征提取等。EBImage是放在Bioconductor上的,依赖于ImageMagick (>= 6.3.7)和GTK+ (> 2.6),安装方法、介绍等文件见此

Lena是个非常漂亮的瑞典模特,本来与数字图像处理等学术领域八竿子打不着。但是她的一次在花花公子杂志上的高调亮相,使她从此成为学术paper中玉照曝光率最高的女人(没有之一):因为她的那张图的上半身从此成为数字图像处理中的标准图像,被该领域的所有学者曾经用来测试自己的算法等(当然在测试的时候有可能也YY一下)。David C.Munson认为Lena这张图如此走红有两大原因:

  • 这张图像包含了各种细节、平滑区域、阴影和纹理,对测试各种图像处理算法很有用。它是一副很好的测试图像!
  • Lena图像里是一个很迷人的女子。所以不必奇怪图像处理领域里的人(大部分为男性)被一副迷人的图像吸引。

不仅如此,Lena还于1997年被邀请为嘉宾,参加了数字图像科学技术50周年学术会议。在会议上,她成了最受欢迎的人之一,她做了发言,并被无数的粉丝索取签名。在这些粉丝眼中,Lena可能不仅仅是一位漂亮的模特,或许更是一种学术情感的寄托。这不知会让多少该行业的女研究员们艳羡嫉妒啊~

八卦之后,简单给出EBImage包读图的例子,大家可以观察一下窗口界面。

require("EBImage")
## 绘制Lena
lenac = readImage(system.file("images", "lena-color.png", package="EBImage"))
display(lenac)
## 读取网络图像pi并绘制
XXlogo <- readImage("http://t.cn/hdqPPd")
display(XXlogo)

 

最近想稍微窥探一下统计中的小波分析之应用,找了本英国Bristol大学G.P. NASON写的Wavelet Methods in Statistics with R。不过翻开前言后,发现竟然出现了周恩来总理的赫赫大名,很是惊讶。细一看,原来是作者引用总理的话来进行类比说理,很佩服Nason渊博的历史知识啊。

随便翻译一下,中译文后面附上原文以正视听:

中国总理(1947-1976)周恩来先生在被问及他对法国大革命观点的时候如此回答,“现在评论还为时过早”;我觉得这个说法也同样适应于小波分析。尽管一些特殊小波的发现已经很有些历史了,但是真正能被称之为“小波理论”的主体架构的建立才仅仅是上个世纪80年代的事情。统计学中引入小波分析是在80年代末和90年代初,最初主要在曲线估计方面比较流行,后来以各种方式逐渐渗透到许多领域,比如生存分析、时间序列分析、图像处理、逆问题、变异数稳定变换等。

When Zhou Enlai, Premier of the People’s Republic of China (1949–1976), was asked his opinion of the French Revolution (1789–1799) he replied “It’s too early to tell”, see Rosenberg (1999). I believe that the same can be said about wavelets. Although particular wavelets were discovered many years ago, the substantial body of literature that we might today call ‘wavelet theory’ began to be established during the 1980s. Wavelets were introduced into statistics during the late 1980s and early 1990s, and they were initially popular in the curve estimation literature. From there they spread in different ways to many areas such as survival analysis, statistical time series analysis, statistical image processing, inverse problems, and variance stabilization.

后面的一段就简述了傅里叶级数的曲折历史和对小波分析的肯定与憧憬。傅里叶的那篇开天辟地巨作也着实命运忐忑,这篇论文经 J.-L.拉格朗日, P.-S.拉普拉斯, A.-M.勒让德等著名数学家审查,由于文中初始温度展开为三角级数的提法与拉格朗日关于三角级数的观点相矛盾,而遭拒绝。由于拉格朗日的强烈反对,傅里叶的论文无以得见天日。1811年傅立叶又提交了他修改后的论文,在里面提出了傅立叶级数和傅立叶积分的创新思想和方法,因而这篇关于热传导问题论文获得了1812年科学院大奖,但是这篇论文因为在论证方面仍然缺乏严密性而未能在科学院的院刊《科学院报告》上正式发表。傅里叶自然对此极为愤懑,但也别无他法。直到他1817年被选为科学院院士,并于1822年成为科学院的终身秘书后,才将他的这篇大作原封不动的放在了他的专著《热的解析理论》中。

法国大革命也是傅里叶级数引入的大历史背景;傅里叶级数引入之后,招来了科研界的各种尖锐的批评(参见Westheimer (2001))。尽管早期存在如此之多的争议,但我们发现在200年后,许多新的傅里叶方法如雨后春笋般的在各个领域中生根发芽。无疑,小波也是科学界的一次革命。它的许多有趣的特点很快得到了认可和欣赏,比如多尺度性、局部性、计算速度等。但其他一些重要问题(比如无条件基),还有待进一步研究。我希望本书能在较小的层面上创建一些新的小波方法。我也坚信小波分析将会在接下来的200年凸显其重要性并继续蓬勃发展。

The French Revolution was also the historical backdrop for the introduction of Fourier series which itself raised considerable objections from the scientific establishment of the day, see Westheimer (2001). Despite those early objections, we find that, 200 years later, many new Fourier techniques are regularly being invented in many different fields. Wavelets are also a true scientific revolution. Some of their interesting features are easy to appreciate: e.g., multiscale, localization, or speed. Other important aspects, such as the unconditional basis property, deserve to be better known. I hope that this book, in some small way, enables the creation of many new wavelet methods. Wavelet methods will be developed and important for another 200 years!

该书作者还写了个小波分析方面的R包wavethresh,为广大R用户提供了很大的便捷。里面有个图像数据颇为可爱,鄙人岂敢独享?奇图共欣赏,故放上来以飨大家。当然,本系列的后续博文会经常提到这只小熊的,并对其进行各种变换。

library("wavethresh")
data(teddy)
par(mar=c(0,0,0,0))
image(teddy)

 

PS1: 关于教科书中出现政治人物,恐怕太祖是空前绝后了,一个精彩案例在此

PS2:本博文纯属八卦,故小波分析系列号为零。后续博文会逐步讨论本人对小波分析的一些学习心得;不妥之处,还请大家多多莅临指点。

PS3:这个博客几乎一年没有更新了,从今日起会时常抽空写点东西,多做总结;这一年也是我事情最多的一年,感谢陪伴我、鼓励我、关心我的各位朋友和老师~~~

 

先来一个绣花枕头(并非贬义)版本,当置信上下界(下图中为95%)同正同负时,勾勒一个圆环,外圈所围面积为置信上界,内圈所围面积为置信下界。当置信上界和下界符号不同时,画两个圆,先画绝对值较大的,再画绝对值较小的,并用不同颜色以示区分-,这样以来,上下界皆可看清,并且跨越0的置信区间对应的图就不是圆环了。图中的红叉表示不显著的系数(a=0.05)

上图看来新奇,但展示置信区间还是用长度直观明了,下图为不同置信水平下置信区间的动画演示。每个矩形上下边的黑线分别为上下置信界,中间的黑线(并不是上下界的均值!)为相关系数大小,水平的点划线为0基准线。随着置信水平(1-a)的增大,置信区间长度不断增大。

该gif动画较大,440k左右,网速慢的可能得稍候几秒,pdf版本见此

更多例图,参见我的Google Docs,共56张图形,恰合我华夏名族之数目(美其名曰corrplot华夏图?)。国内google docs 在线查看速度可能比较慢,下载后用pdf浏览器全屏观看效果为佳。

上面的所有图片代码都在corrplot-0.3版本之中,目前还没有在CRAN上,Rforge估计还得一两天。(注:现在已在了)

近来生成swf、gif等动画都是animation之功劳,很是方便,感谢YH:)

———————————–分割之—————————————
corrplot 0.3版本变动如下:

1. 发现原来代码有些地方还是累赘,还有小bug,精简并kill 了一下bug,目前没有一个for循环(这种仇视for的心态或许并不好)。
2. 原来变量名起得不好,这次大动了手术,争取见名知意,且能迅速记住,并不发生混淆。
3. 进一步做好细节工作,主要是文本标签和颜色标签,提供了更灵活的布局方式,从上面提到的corrplot华夏图中即可见端倪,比如颜色棒可选择在右或下,并可以自由控制宽度。

目前的corrplot包一个优点是很灵活,可以自由控制很多东西;但同时,这个优点也是成了它最大的缺点,那么多参数,看得人眼花。

 

更新了一下corrplot包,变动如下:

1.  解决了之前的一些小bug,并且把原来的一些for()循环用*apply函数重写了一下。
2. 增加了corr.rect()函数,可以在相关阵的图上面框框,类似于谱系图上面的那种矩形,即将原来的多个变量分为n类。这两种图(见图1、图2)可以好好比较一下,各有特点。
3. 在原先的corrpot()函数中,当排序方式为系统聚类时,可以根据聚类结果直接加框框,具体由rect.hc, rect.col, rect.lwd三个参数控制。当然,也可以在图画完之后,用corr.rect()函数再加,只不过方便性上打了折扣。

目前,CRAN主页上新版已经出炉,国内中科院的两个镜像还没有同步,大约得半天左右吧(香港那个镜像早已废弃)。此外,WINDOWS下默认的图形设备在绘制png等非矢量格式图时,效果欠佳,建议用Cairo包或者cairoDevice包来生成质量较高的png图片。

图 1 corrplot画出来的

图1代码如下:

corrplot(cor(mtcars), order="hclust", rect.hc = 3)

图2 传统的聚类谱系图,可以与图1好好比较一番


再放一个图1和图2的联姻图:

图3 二者之联姻,和heatmap有些相似

corrplot包的其他问题:

1. DESCRIPTION文件里面的suggests package里面不小心加了个rgl包,悲剧悲剧。
2. corrplot()函数参数过多,现在是38个左右,很多时候我自己都要返回去看看参数意义,显得比较累赘。
3. 变量的文本标签的计算方法不太好,有时得多次调解cex参数,比较麻烦,这个是个比较大的问题。
4. 之前,准备多做做变量排序的事情,后来发现seriation包已经做得非常好了,其中一位作者Kurt还是R core之一,每次提交package时,几乎都是他把关。corrplot包的定位还是轻量级,在维数<50的时候娱乐娱乐。

欢迎广大朋友批评指正。

 

A fractal is “a rough or fragmented geometric shape that can be split into parts, each of which is (at least approximately) a reduced-size copy of the whole,”a property called self-similarity. Roots of mathematical interest in fractals can be traced back to the late 19th Century; however, the term “fractal” was coined by Benoît Mandelbrot in 1975 and was derived from the Latin fractus meaning “broken” or “fractured.” A mathematical fractal is based on an equation that undergoes iteration, a form of feedback based on recursion.

(form Wikipedia)

分形几何是几何学中的新分支,其维数可以是任意值。分形图形的一个重要特点是自相似性,据此性质可以人工构造出很多养眼的图片,这里给出四种常见的分形图。更多代码和讨论请移步COS论坛

1. 树叶

plot.leaf <- function(n=50000, col="green",cex=2){
  x <- c(.5, .5);
  plot(x[1], x[2], xlim=c(-3, 3), ylim =c(0, 10),type="n",xlab="",ylab="")
  p <- c( .85,  .92,  .99,  1.00);
  A <- rbind(c(.85, .04), c(-.04,.85), c(.20,-.26), c(.23,.22),
             c(-.15,.28), c(.26,.24),  c(0, 0), c(0, .16))
  B <- cbind(c(0, 1.6), c(0, 1.6), c(0,.44), c(0,0))

  for (i in 1:n){
     ran  <-  runif(1);
	 ind <- rank(c(p, ran), ties.method="min")[5]
	 x <- A[(2*ind-1):(2*ind),]%*%x + B[,ind]
    points(x[1],x[2], pch=".", cex=cex, col=col)
  }
}
#library(Cairo)
#CairoPNG()
par(mar=c(0,0,0,0)+0.1)
plot.leaf(cex=1.6)
box()
#dev.off()

koch

2. 树

koch

3. 三角

koch

4. 雪花

koch

 

公元2009年12月13日下午,第二届R会议上海分会场急匆匆地、意犹未尽地结束了,整个第二届R会议也终于完满地落下了帷幕。做为两会代表之一,我觉得有必要用我贫乏的文字来记载本届R会议的点点滴滴以及我自己的一些感触。上篇博文谈了很多北京会场的事儿,这里重点说说上海会场。

1. 辛勤、无私的会议组织者

首先必须感谢在幕后为会议默默奉献的工作人员,上海会场的主席是张翔和焦静两位热心人,先借用益辉的一段话吧:

张翔呢,我没想到他会担起这次会议组织者的角色,上海会场在他的带领下也办得有声有色(看看会议通知页面的宣传海报多么亮丽),和焦静两人拉赞助、发传单、安排吃住,作为已经工作的人,对一门自由软件如此费心,甚为难得;焦静呢,现在不在统计专业(生态),却帮忙做着一门统计软件的推广,跑校区、定会场、找领导,忙得不亦乐乎……

会议组织人员还包括焦静姐姐实验室的一批朋友,她们是辛勤、无私的幕后英雄,有些甚至为会议熬出了黑眼圈,焦静姐姐的导师陈老师也为本次会议默默付出了很多,非常感谢他们为大家做出的贡献。

2. 演讲报告&世界真小

首先要说的是国内LaTeX、R的传播方面的元老级人物——汤银才老师,汤老师兴致勃勃地全程参加了这次R会议,为大家做了《R与WinBUGS》的报告,在报告中还充分赞扬了COS论坛对R传播的不菲贡献。之前一直在CTEX上、《应用概率统计》上看见汤老师的大名,没想到竟然能和汤老师相逢在第二届R会议中,真是神奇。此外,汤老师还对我的娱乐工作(矩阵可视化)非常感兴趣,让我觉得受宠若惊。

我在演讲中反复提到了台湾中央研究院统计所的陈君厚老师,却没想到离我座位很近的一位大哥就曾在陈老师那里学习工作,并且他还是在人大读的博士!这位大哥叫林帧舜,来自台湾,目前在商界驰骋,还是吉林大学的兼职教授。林兄演讲非常幽默风趣,时常让全场沸腾。再插播一则令人兴奋的好消息:林兄告诉我以后的会议可以帮我们请陈老师等人过来(陈老师也是useR!),期待中。此外,林兄有句经典的话“人大的学生就是喜欢折腾”,让我思绪万千。

据说(这个据说被证明是正确的)华人在美国统计界占了半壁江山,哥伦比亚大学的统计系系主任应志良就是其中出色的一位。应老师是彪悍的复旦数学系78级校友,这次会议中碰巧就见到了一位应老师的女弟子,数理功底很扎实、演讲水平很出色,非常仰慕。

东南大学的王卫杰老师也赶过来指导大家,王老师和我们一起吃烧饼、聊天,丝毫没有副教授的架子,很nice。

日程表上,思喆、李健师兄第二天早上是包场,但是后来又加进来几场报告,最后思喆、李健师兄的报告都是急匆匆的飞过去了,很可惜。

3. 眼光犀利的商业公司

我没有特意逛商场、街市,但仅仅从本次R会议相关的人物、演讲就感觉到了上海的商业氛围之浓厚。

12月11号刚到上海后,托cloudly的福气,去和一位传奇色彩浓厚的Mr. Liu吃饭。Mr. Liu在一家很famous的大公司工作,是一位成熟的商业人士,他竟然是通过阅读文献—— 知道R——关注R Journal—— 发现国内第一届R会议的通讯——找到COS——得知第二次R会议消息的。在饭桌上,Mr. Liu谈笑风生,提到了很多顶级大牛、paper,让我觉得很汗颜。这年头越来越多的商业公司开始关注R了,看来R的确在商界、工业界产生了较大的影响,R的舞台也不只是学术界了。

Mongo solutions是本次R会议上海分会场的赞助商,这次有幸见识了中国区负责人Mr. Shao,发现Mr. Shao竟然如此年轻,真是英雄出少年啊。同样,Mongo solutions非常重视R,他们甚至为辉瑞公司开发过基于R的产品(我之前一直认为辉瑞的世界里只有SAS)。值得一提的是,他们在全球范围内赞助R会议,支持R的发展,最终达到学术圈和产业圈的双赢,这一点值得广大国内公司学习。目前他们还在招聘R数据分析师呢,有兴趣的朋友可以去尝试一下。

中芯国际集成电路制造(上海)有限公司是国内R的资深用户之一,他们充分发挥R的特性,使得很多分析工作轻松便捷。通过去年刘明大哥以及今年林光启经理的演讲,我不禁感叹“R就是生产力啊”。此外,还有很多朋友在台上台下谈到了R在企业界的各种应用,非常热闹。

倚天不出,谁与争锋?免费、绿色、强大的R肯定会得到越来越多商业公司的青睐。在以后的R会议中,希望得到越来越多商业公司的支持赞助,推动R在国内的发展,达到学界、企业界双赢、多赢的局面。

4. 无知者无畏的我们

好事者、无知者无畏,这是我对我们团队(我和三位学弟)的评价,本次会议中很多演讲者都是高校博士、教授以及企业中的佼佼者,而我们目前只有个高中文凭,却怀着一腔热血四处招摇,实在是无知者无畏。不过在招摇的过程中,我们的确丰富了知识、开拓了视野、碰撞了思想,也愈觉得自己是井底之蛙,因此也愈有改变现状的动力和方向。会议结束了,以后的重点就是吸取会议精神,扬长补短,奋勇前进了。

5. 两会之区别

最后扯一下个人眼中两会之区别,否则对不住“两会代表”的称号。

上海会场是较为严谨的会议室,貌似还有全程录像,再加上一批教授、博导、博士、国外朋友的莅临,气氛显得非常正式;而北京会场则自由很多。此外,上海会场中的商业氛围较浓,谈到了很多商业应用;而北京则更学术。最后要说的是,上海会场很爆满,门外面都站着人遥遥偷窥,而北京会场比较稀疏(当然两个会场的大小不一样)。

最后期待下一届R会议更精彩,也祝愿各位R user越来越强大。

 

来去匆匆,期待已久的第二届R语言中国会议北京会场落下帷幕了;欢乐趣,离别苦,尽管非常留恋不舍,但诚如范兄在会议结束时感慨,天下无不散之筵席。紧急撤离之时,感动失落之余,谨记长路漫漫,在以后的日子里还需多多努力,不负众兄弟姐妹的殷切期望。先贴一个会议留影吧:
2nd-r-meeting2
感激,高兴,欣慰,惊诧,羡慕,惭愧,失落,抱歉?此时此刻我不知怎么来准确地表达。但可以肯定的是,感动+感激+感恩+感谢+感慨这几个词一直萦绕在我的世界中。在回来时拥挤的车厢内,我也分别问了三个学弟收获了什么,他们的回答非常一致:首先是感动,社区的温暖让大家感慨不已;第二才是具体性的技术,很长见识,也让大家认识到了自己的狭隘和不足。我一直认为,人生在世,情感是最最首要的,事业是第二的,两者也有相当程度的交互影响。在一个和谐、温馨的社区中,大家相互学习、交流合作、心心相印、肝胆相照本身不仅是一种财富,同时也能使大家相互学习、取长补短、共同进步,这或许就是“共产主义精神”的最好诠释吧。

1. 故事、人物篇

在之前在会议准备阶段,张兄、焦姐、关姐、邱兄、范兄、陈兄、蒋兄等会议组织者以及远在海外的谢兄都给了我们很大的支持、鼓励和帮助。考虑到准备时间仓促、甲流等原因,今年的R会议本来打算京沪两地都是小规模的,仅仅一天。而我们这边一下就是四个人报名,而且都是两会代表(人大会场+华师会场)加预备演讲,这么浩浩荡荡、兴师动众的,给会议安排制造了很大的麻烦。的确,R会议一年就这么一次,机会如此宝贵,而我们4个人厚着脸皮霸占这么多资源,本身就很过意不去,加之我们才疏学浅,能给大家带来的演讲价值有限,因此我们一直有种罪恶感,也曾经想着为了会议日程主动退出一个会场。但是遭到了邱兄、蒋兄、谢兄、潘兄等人的反对和鼓励,大家如此的支持让我们非常感动、非常惭愧。

在去人大之前,给亲爱的张老师发了邮件,张老师非常热情,还亲切地约我聊天吃饭。去了之后,在明德楼找到了他,聊了很长时间,谈到了学习、生活、网络等诸多方面。老师让我根据兴趣爱好自主选择方向,非常自由,并且说可以联系全国该方向的老师来请教。之后,老师又开车带我吃饭,在饭桌上,叮嘱我多多吃肉。我当天中午在火车上没有吃什么东西,因此谨遵教诲,在饭桌上非常放肆,饕肉餮菜,筷子一直没闲着。吃完之后老师又送我回了人大,让我感慨不已。我也时常扪心自问,我何德何能,蒙此殊遇啊。

4号晚上,我们到了人大统计学院机房,和邱兄、范兄、关姐、陈兄及一位非常可爱的人大师弟一起高兴地装了会议胸卡和资料袋,还戮力干掉了菁菁姐姐的一包很sweet的小橘子,期间大家还以会议横幅为背景拍了一些珍贵的照片。说到这里,想起第一届会议时候在10楼的应用统计研究中心装胸牌、资料的时候了,那时买的胸牌很难装,纸很软,胸牌套的口子很小,装一个很费劲。悉潭等人还在房间内拍照留影,我自己面像凶恶,一般不敢糟蹋相机和景观,就在谢兄的电脑上查了查邮件,瞻仰了一下谢兄一大架子的打印书稿。眨眼间,一年就这么过去了,人来人去、花落花开啊~

回到住处明德楼招待所之后,已经很晚了,见了阔别一年的悉潭兄弟,心里又默默感慨了一番;也给正复习考研的郑冰同学发了短信致以慰问。李程、高涛两位师弟第二天是首场讲座,压力很大,我们紧急排演了一遍,对原来的slides进行了适当地修改。等我睡得时候是两点多了,两位学弟熬到了三点多才睡。在此,向两位可爱的学弟表示钦佩和祝福,回想起此前的准备阶段,我时常比较苛责,给了他们很多压力甚至批评;而他们以博大的胸襟宽容了我的种种不好,始终没有记恨我,令我羞愧感激不已。作为学长我应该更加宽容才是,这方面他们比我做得好很多很多。

在明德楼招待所中,有种宾至如归的感觉,并不是这个招待所有多么nice,实际上这家招待所价格比较昂贵(150 per day)、服务比较一般,相同条件的在长沙最多就40元,让我真正觉得温馨的是在这里发生的故事。我是第三次去这家旅店了,第一次是参加第一届R会议,是在谢兄的鼓励下、陈钢师兄的带领下第一次杀到北京,学会了怎么坐地铁,陈钢师兄还带我去了教育部一趟。记得当时迎接我们的是余浩宇师兄,很周到、很温馨。在明德楼招待所中,我们和郑冰、詹鹏、悉潭等人开玩笑,逗乐子,玩得不亦乐乎。第二天晚上,陈钢师兄住同学那了,刚好丁国徽大哥从欧洲赶了过来,晚上我们就住在一起,还看了一小会电视,是关于《西游记》的拍摄历程的记录片,丁大哥很喜欢笑,很nice,很懂得享受生活,他给我展示了欧洲的货币,还送给我三枚硬币留作纪念,在当晚的宴席上,还不断为我倒啤酒。第二天,丁大哥耐心地听了我just-so-so的演讲,还让我把那个用环游全国省会城市的TSP路线图发给他,他说要拿那个去旅游,顿时让我觉得很温馨很有成就感。上午会场结束之后,丁大哥就匆匆地扛着行李离开了。下午会场刚一结束,我和陈钢师兄也匆匆离开了,刚好赶上火车。两年都是这样,匆匆而来,匆匆而去,沉淀下来的是感动和伴随感动的一份伤感。

第二次来这个招待所是保研面试时候,那时在人大统计机房查阅了附件的宾馆,敲定了这家,然后潘兄就送我过去,走的不是平常那条要穿越立交桥的小路,因为邱兄特地叮嘱了,平时那条不是正路、不安全。潘兄回去之后,我就温馨地独守空房。在人大面试的时候,邱兄、潘兄、李兄、蒋兄、左兄、王兄、范兄、陈兄、方姐等都给了我很大的鼓励支持,我想请大家吃顿饭的权利都被残酷而温馨地剥夺了。实际上,我的保研之路比较曲折,能来人大我都感到很惊奇。我是在厦大面试时候突然决定提前退场临时买机票来北京的,两地的面试的时间是冲突的,这个突然决定的原因有很多,包括COS长期以来对我的支持,包括邱兄、陈兄、谢兄的温暖协助和建议意见,尤其是和邱兄之前的聊天和通话,从某种程度来看,这个”突然决定“是偶然的,也是必然的。但我在人大的表现并不是很好,我觉得成功的概率并不大。我也在想,如果我被人大拒了,可能就去上财、华师等学校中的一所(当时貌似很盲目自信)。但是小概率事件发生了,或许这就是缘分吧。

在修改slides之时,打开我的mp3,赫然发现去年会议的资料还在里面,同样的会议、同样的旅店、同样的mp3、两份时隔一年的材料……,我顿时百感交集。我的mp3很少听,几乎没用过,去年还是拿着它去开会的,并且在插到连接投影仪的电脑的时候,发现有病毒,谢兄还让我回去杀杀我电脑上的毒;其实,我一直认为我的电脑比较绿色,我怀疑是插了陈钢师兄的电脑感染的,呵呵。

去年今日此门中,人面桃花相映红。人面不知何处去,桃花依旧笑春风。陈钢师兄、国徽大哥、谢兄、吴老师都飘扬过海,去追求人生的价值和梦想了。今年的会议由邱兄、范兄、陈兄等人掌舵,同样精彩,而以后的会议谁来主持?。

说到这里,必须要感谢低调、温馨、强大、奉献、细心、体贴、善良的邱兄和范兄等人了,是你们的付出让大家在温馨感动之时享受学术的趣味,目前我对此只能表示感动+感激+感恩+感谢+感慨,尽管都是苍白的。还有,这次原本打算好好会一会人大的各位好兄弟们,但是发现时间安排太紧了,闲暇时间太少,当然还有自身懒惰等原因,没有向广大nice, sweet 的兄弟们一一致敬,非常抱歉。

最后写给和我一起杀到北京的三位学弟以及所有中南大学统计交流协会的师弟师妹们,在大学四年的生活中,我已经是夕阳西下,而你们是旭日东升。在大学期间,我没有探索到多少真理,没有学到太多的知识,虚度了很多光影,我有的仅仅是在寻寻觅觅、磕磕碰碰之中的经验和教训;我深知环境的恶劣,也亲眼目睹一批又一批人在这里彷徨最终堕落。或许是受谢兄、COS等的影响,我希望能搭建一个平台,让大家相互勉励,共同进步。也就是我们协会的口号:“做平台,做气氛;促交流。促进步”。作为一名好事者,我自己深切体会到自己力量之绵薄,心有余而力不足,我自身的局限性很大,现在来看,平台也并没有搭建得多好,对你们或许起不到太大的帮助作用。目前我知道你们08级的学习气氛很浓厚,我已经非常欣慰了。

对中南大学统计交流协会R group的几位朋友们,我要再次感谢你们的宽容、努力和进步,你们在很多方面比我优秀很多很多,希望你们再接再砺,继续披荆斩棘、奋勇前进。我是个比较感性的人,很多方面不够理智,对你们没有做到像邱兄、思喆大哥那样慈祥、体贴、耐心,说话也很直,不怎么委婉。而你们一直对我非常信赖+支持,让我非常感动而又惭愧。沉舟侧畔千帆过,病树前头万木春,你们的未来一定光辉无比。我给你们每人都送了一本书,大体涵盖以下几个层面:哲学+历史+数学或统计,这个其实代表了我对学习教育的某种观点,希望你们不要仅仅死抓课本,适当探究学科哲学和学科历史是有必要的,而这个在国内是完全被忽视的。或许我是个喜欢空谈思想的人,但在实干之余还是希望你们稍稍注意一下。

2. 演讲、报告篇

5号6号两天的报告一共19篇。

(1) 开幕词、R的基础知识(陈堰平)

陈兄是本次会议的主席,在找工作的忙碌之中担此重任实属不易,并且我来人大读数理,就是被陈兄“撺掇”的;在演讲中,陈兄提到了R会议在国内的挖井人——谢兄,并抓出了谢兄的靓照,比较之后得出了他二人非常神似的结论。这让我想起了面试时候,几位老师说我也比较像谢兄,但得知我是甘肃人之后立马改口说不像,让我哭笑不得。而据陈兄说,我和谢兄后脑勺比较像,这个嘛,可能人的后脑勺都差不多……

(2) 统计图形概览及其在R下的实现(高涛和李程)

这是两位08级学弟的演讲题目,他们的幻灯片将近90页,准备了很长时间,主要参考了谢兄的《现代统计图形》,Statistics with R,R graph Gallery,Michael Friendly 的统计图片网页等很多材料。他们大一时候是数学大类方向,这个学期才接触统计知识,在准备的过程中往往觉得统计知识比较欠缺,为了充分理解图的含义,他们自主往前学习了很多后续的统计知识,熬了好多个通宵。尽管最终的演讲有几处理论错误,但是总体来说相当精彩,我从中也学到了很多东西。李程学弟怕时间不够,一路往过飞;而高涛不缓不急,娓娓道来,让做师兄的我松了一口气的同时很是汗颜。不过要批评的是他们最后忙中出错,把统计学院说成了数理统计学院,呵呵。

(3) RExcel应用数据挖掘方法现代发展趋势(关菁菁)

之前知道菁菁姐姐(忘了问到底是姐姐还是妹妹,姑且以姐姐称呼)是本次会议北京会务组的R core之一, 这次有幸得见真人版,很是荣幸。菁菁姐姐不仅幽默风趣、温柔大方,而且理论扎实、演讲很有条理,她提到了很多数据挖掘中的算法和方法,很多都是我之前没听过的,包括集成算法Ensemble Learning等,这个让我再次意识到了学校之间、个人之见的巨大差距。刘兄在会议闭幕时说,巾帼不让须眉,诚如此,汗颜中……

(4) R在食品标准研制中的应用与展望(钟其顶)

其实很早就在谢兄的博客中听过钟老师的大名了,这次有幸一见并能聆听教诲,很是高兴。民以食为天,钟老师谈到了统计学在食品中的应用,尤其说到了酒类判别分类问题。大家听了都非常馋,都想尝尝92年的陈酿是啥个滋味;不过肖楠师弟说葡萄酿酒太糟蹋了,葡萄要比葡萄酒好很多:) 钟老师还提到了统计数据问题,比较了食品行业和经济金融行业的数据质量,让场内玩数据的人感慨万千;的确,数据质量是统计的第一关,如果数据本身有问题,那后面的工作都是白费力气了,正所谓“垃圾进,垃圾出”。必须要说的是,钟老师相当和蔼可亲,还邀请我明年去他那里做客,非常感动。可惜的是,为了保证必要的记忆力我还不能大量喝酒,要不这一年一定好好锻炼酒量,争取到时喝他个天昏地暗(这个念头有点猥琐啊)。

(5) R环境安全特性初探与前瞻(肖楠)

学弟的作品,灵感来源于cos英文论坛上谢兄和颜兄的一个帖子,以此为源,小楠同学花了很长时间,深入研究了一下R的很多底层函数,在不同系统级web R中测试了R代码的潜在威胁,得到了一些很有意思的结论,很多听众都对学弟的演讲很感兴趣,so nice. 我也非常钦佩他的探索精神。这位肖学弟是典型的夜猫子,在这学期中时常五六点才睡觉(都是准备paper、slides、blog、课程学习等,倒没有不务正业),让我觉得很害怕、很担心,我也曾多次叮嘱他别睡那么晚(我是一两点)。身体是革命的本钱,在此我想以这句话同时告诫我们两人,希望我们以后能有一个良好的作息时间安排。

(6) Integrate R into Your C/C++ Application (宫雨)

宫雨老师的演讲相当有技术含量,他花了大量时间阅读了大量R的底层代码(Read the fucking code),指出了R底层之处的很多不足,并实现了由C/C++调用R的基本方法。其完美主义精神给人流下了深刻印象,同时也鞭策我们做事不要浅尝辄止。

(7) 地质环境调查监测研究中的R应用(刘永生)

刘老师是R的资深用户,据说是2001年(或2003年)就开始使用R,在工作中积累了大批函数,给我们分享了用R分析地质领域数据的优势所在,还和google地图结合在了一起,很好很强大!他说他们研究所以后招学生必须会R才要,语气、态度非常坚决!刘老师也是资深COS潜水员,这次能来会场为大家传经实在是我们的荣幸。

(8) R在灰色系统理论方面的应用(奚潭)

悉兄是唯一一位在去年、今年都和我住在明德楼招待所的哥们,这让多愁善感的我顿时感慨万千。桃花依旧笑春风,悉兄讲了国产的灰色理论在R中的实现,并打算写一个package,在此表示鼓励。悉兄问道有没有cran关于灰色理论的package,我觉得应该没有,这东西是国产的,并且走的路子和标准的统计方法不一样,模糊数学界的人关注多一点,统计学界的貌似很少。去上海时候,悉兄还要给我们带盐水鸭,好期望、好感动……

(9) R在大规模数据整理及自动化报告方面的应用(刘思喆)

时光白驹过隙,刘兄慈祥依旧,学弟戏称刘兄是加宽版的周总理。COS论坛R版版主、《153分钟学会R》的作者、长期为大家默默奉献R知识的刘兄的讲座给我印象很深,之前我并没有意识到自动化报告方面的重要意义,因为我做得东西都是一次性的,不需要太多重复,后来一次重复性很强的项目中才意识到这个问题的重要性。

(10) R在市场研究中的应用(祝迎春)

祝先生用统计软件近10年,接触了各种各样的统计软件,并且还把R和SPSS结合在了一起,为不喜欢coding的同志们提供了很大的便捷(不过也损失了很多优美的东西),大家对他的演讲都很诧异+惊叹。不过他在演讲中说R对他来说就是黑匣子,这个我(以及很多人)差点跳起来,我不知道他说的白匣子指什么。此外,祝先生的slides中还提到了我在COS论坛中提到的对smart visualization的一点看法,他说这个已经是实现了的,不过就他演示的例子来看,这个实现还处于社会主义初级之初级阶段,和我意识中的smart vis有很大差距。

(11) R心理学笔记(孙晓燕)

孙学姐从深圳赶来,实属不易,并且孙学姐决定演讲的小部分原因是受到了我的煽动和蛊惑,对此先得意一把,我也想当“统计人贩子”。孙学姐是李晓煦老师的弟子,正在出国准备中,百忙之中远道而来为大家展示R在心理学方面的应用真的很难得。

(12) 非参数方法与稳健性估计初探(左辰)

左兄依然很理论,先羡慕一下,今年左兄讲得东西我听懂了一小部分,觉得比较欣慰。去年左兄讲的是分位数回归,他排在我前面,当时貌似他们几个(以及丁兄、陈兄)超时很多,我的实际演讲开始时刻比我的理论上演讲结束时刻都要靠后。结果我就只有10min的时间,不过我的东西很easy,9分钟就完毕了,还剩一分钟回答了一个问题。今年我也希望左兄多讲一会,我肚子里面墨水少,也准备像去年一样快速结束战斗。不过今年左兄的时间安排很准,没有超一点时,小小失望一把。

(13) 矩阵可视化及 corrplot 包的介绍(魏太云)

都不好意思说我自己的演讲了,前面是左辰,后面是陈丽云,他们都讲得很精彩,而我讲得很没有逻辑、层次,我夹在中间很汗颜、尴尬。之后问了学弟,他们也说没有我平时和我们讲得好,惭愧惭愧。不过我的东西比较晃人眼球,40张slide,差不多40张图,看起来还比较炫,大家都没打瞌睡,北大的一位赵兄说这是他第一次听课,我觉得非常欣慰满足了。

(14) 在经济和计量中使用R (陈丽云)

惊艳全场,这个是我们对丽云演讲最综合的评价,丽云一直谦虚自己讲得不好,但大家的眼睛是雪亮的,她演讲的内容很有思想、很有见地,并且会场把握能力很好,用范兄的话说就是“一看就知道是老手”。丽云侃侃而谈,提到了经济学和统计学的误区、结合点等很多大家关注的东西,这个对于两个学科的发展都是很重要的。此外,丽云还在午休时间抽空给我安了Lyx,并大致讲解了其基本用法,之前也给我的blog提了一些建议,并回答了中南大学统计交流协会对经济学的很多问题,长达万字之多,让我们非常非常那个。大家还戏称我们是2nd R 会议的两朵乌云(名字里面都有个云字,并且都是灰黑衣服),这个和物理学中的两朵乌云是对应的,呵呵,荣幸一把先。

(15) R在近红外光谱分析中的应用(孙蝶)

又一个精彩的应用案例,提到了主成分分析、岭回归、Lasso、偏最小二乘法等,这个和菁菁姐姐、钟老师的演讲有相似之处,貌似Lasso、偏最小二乘异常火爆,可惜我不大懂,只能亡羊补牢啦。

(16) R在空间分析中的应用初探(王化儒)

王兄可是老朋友了,去年就和我们一道参加了R首届会议。这次王兄讲的是空间分析,还拉出来我的一张TSP漫游中国最短路线图,虽然是借此批判,我还是觉得非常荣幸。空间分析有很宽广的舞台,丽云就给我指出了经济学中很多需要空间分析的地方,我们数模之时,也时常碰见这种问题,只是用得很肤浅而已。再一次感慨统计舞台之广阔,也感慨统计和实际碰撞才会产生火花。

(17) 应用omd包对QSAR分析中分子结构参数矩阵的优化(马斌)

马兄也是老朋友了,马兄谈的是化学计量中的QSAR,我们学校化学院有人也在做QASR,我去忽悠过R,不过对QSAR一无所知。马兄在台上感慨说:眼睛一闭,会议就结束了;的确,这么好的交流机会真的太珍贵了,时间也很短,我和马兄都深知机会的宝贵性。

(18) R与WinBUGS(丁鹏)

也是老朋友,丁兄是北大耿直老师门下的高才生,长得十分秀气俊朗,天庭饱满,地阁方圆,印堂发亮,面带红光,天生贵族气质。丁兄不仅双扣、拱猪等纸牌游戏玩得烂熟,对统计方面的见解也比我深刻很多很多,以后去了北京一定多多请教他,呵呵。丁兄的题目是R与WinBUGS,这个和上海那边汤老师的题目是一致的。很惭愧,我目前对贝叶斯理论知之甚少,丁兄的演讲也听懂的不多,但大致的方向似乎了解到了。

(19) WebR-R 在线分析及在大气数据分析中的应用(黄志一)

一直以为黄志一应该是个gentleman,结果却是中科院计算所的一位靓丽姐姐,之前对他们的WebR系统一直很关注,也很看好,cos论坛上我也发过贴提过,大家对这个都很有兴趣。她们莅临会场来指导工作,我们也觉得很奇妙、很幸运(真不知他们是怎么得到R 会议这个消息的,难道他们也是灌水专业户?)。这个演讲是压轴好戏,大家提问是最多的。在计算量大的时候,我们自己的PC机很难满足,这时需要有个大型服务器来做这个工作,但是可惜的是我们自己时常得不到这个资源,而他们开发的Web-R就是很好的工作。先透漏一个好消息,该系统对中科院内部免费,中科院的同学们高兴去吧,同时也等着帮我往服务器上扔程序啊。

3. 展望篇

感慨万千,上面扯了很多,写了整个通宵,很乱很没条理,写到最后自己不知说了些什么,大家见谅。

最后期待下周的上海会场和以后的会议更加精彩成功,希望统计学在国内的发展更上一层楼。

太云于己丑年潇湘夜雨之夜

注:尽管貌似写了很多,但还是意犹未尽;很多精彩、感动的故事都没有写进去,也还有很多很多需要感谢的人没有一一提到;等下周上海会场之后再发感慨吧。

© 2010 优秀是一种习惯 taiyun.wei@cos.name Suffusion theme by Sayontan Sinha