好久不来此地,前晚本站和COS所有站点一并遭遇黑客扫荡,差点被挫骨扬灰,所幸神灵佑护,又起死回生。今儿黄道吉日,记录个流水账,喜庆一下。过些日子准备搬家到GitHub上面去,也算是挥一挥手,告别下wordpress系统。

早上醒来,感冒没好,发热发软咳嗽依旧;倒是做了个四重梦境,打破了之前的记录,小小欢喜了一下。近两年我做梦功夫突飞猛进,二重梦境早就不是什么稀奇事情了,三重梦境偶尔也做,今天竟然突破了四重,以后说不定有五重。如果有人研究梦境,我倒很愿意提供个人数据给他。

中午和轩锋二人去了科学传播训练营,讲了一下《会说话的统计图形》,幻灯片点击这里查看下载。听众(几乎都是记者、编辑)对图形还是比较感兴趣的,尤其是这个动画以及下面这张图;不过据主办方透漏,貌似很多人没听懂。

下面的图(取自谢益辉师兄即将出版的《现代统计图形》)是基于高频意境词算出作者之间的皮尔逊关系系数,然后系统聚类加黑框以示区别。这张图之所以大家觉得好玩,可能金庸也贡献了不少力量:)

16位词人的风格关系图

 

晚上我们三以及晚一点来的堰平师兄、熊熹师姐去附近腐败了一把,花了中午报告酬劳的一半,谈天说地,吃得不亦乐乎!

此外,上了6个灌汤包,一人一个之后还剩下了一个,我们就用二进制思想,设计了连抛 3次硬币的随机试验,可以得到1/8概率的东西,弃掉三个事件(如果产生了000、110、111发生了就重抛,分别对应10进制数字0、6、7),就可得到1/5概率的随机事件发生器。所幸只抛了一次,就分配好了最后的一个包子(师姐中奖了)。

再此外,师姐还乘机和知名网友拍了张亲密照片;不过我一点也不羡慕嫉妒恨,因为我早有了,而且不止一张~

最后也最重要的是,今天还是肖楠同学的生日:生日快乐!

 

最近更新了两次corrplot包,最新的0.60版本较之前的0.40进步较多。之所以取名为0.60版本,意味着此包的自评分终于上了60的及格分数,也有可能是这个包的最终版本。corrplot的应用范围很明确,就是中小矩阵 (<100*100) 的可视化,尤其是中小相关矩阵、距离矩阵、相似度矩阵等。

本次主要变动如下:

  1. 彻底解决了空白边距过大问题(尤其在文本标签较长时候),这个是个历史遗留问题,之前的方法比较原始简陋,已经有好多人发邮件投诉了(要不我也没动力更改);现在迭代来计算strwidth直至收敛,可以精确计算文本的长宽度了。控制文本大小的参数 tl.cex 也更精准了。
  2. 修订了参数名称和帮助文档,之前的参数取名、帮助文档太随意了。比如”PCA”排序就会让人错觉以为是第一主成分,目前更改成了更为妥当的”AOE”,是angular order of the eigenvectors的意思,具体参见文档。而第一主成分用”FPC”来表示了;此外,从效果来看,”AOE”排序结果一般都比”FPC”要好。提到矩阵排序,seriation包已经很NB了,更多方法可以参见此包。PS: 作者之一Kurt Hornik是R Core之一,是CRAN的主要维护人,每天都要check、答复新进来的包,德艺双馨、产出惊人,是绝对的教授中的战斗兽。
  3. 增加了zoom参数,来放缩原矩阵,使之可以轻松地应用到非[-1,1] 的矩阵;同时增加了参数cl.lim,使得颜色轴标签上只显示需要展示的部分。当然,此时颜色轴上的标签也会和缩放前的一样。
  4. 增加了横轴文本标签的旋转角度参数tl.srt,这个我虽不喜欢,但有人希望加这个方便阅读。总结来看,corrplot的每次更新都是有人发邮件说需要这样那样的功能……
  5. 增加、删除了一些函数。主要是加了corrMatOrder() 和corrplot.mixed () 函数来做矩阵排序和混合可视工作。删除了corrplot.*()系列不那么常用的函数。
  6. 进一步优化了代码并谨慎地选择了各个参数的默认值。虽然这个没有什么技术难度,但因为涉及到的很多都是绘图,审美之类的对我这种时常喜欢纠结的土人实在很麻烦…… 其实,更新最多的时间竟然花在了默认参数的选择之上,这个可能和我的星座有关!!

可视化是数据&模型&结果的美学展示,其中在图形展示这一块主观性较强,因此corrplot很注重各个细节,提供了很多选项让大家自己选择。但就因为这这样,corrplot函数的参数多达43+个,显得很累赘。这就是所谓的双刃剑吧。

此外,为了体验GitHub,我把corrplot主页从Rforge上迁移到了GitHub: https://github.com/taiyun/corrplot 如果有什么问题或者新的需求请到Issues那里提出。

再此外,我把R与最优化的文档也放在GitHub上了: https://github.com/taiyun/Optimization-using-R ,我自己近来空闲时间很少了,希望感兴趣的同学能对这份文档增删添补,以方便大家快速、便捷地查阅、使用。

为了使得本博文不那么呆板,文末以图会友吧:

 

前几天更新了下corrplot,修正了一个配色上的bug(感谢陈钢师兄),并且加了我个人不太喜欢的混合形式的矩阵可视化方法(就是上下三角分别用两种形式画图,虽然花哨,但我觉得不伦不类的);萝卜青菜,各有所爱,经常有人发邮件建议加入这个功能,故修改了下函数来满足各路神仙的需求。corrplot当前的示例图片见此(共58张图片)。

新添加的混合方法的示例代码和图片如下,一个方圆、一个扁圆(个人觉得像是用来把玩的工艺品,而不是统计图形了):

library("corrplot")
corr <- cor(mtcars)
## 天圆地方
corrplot(corr,order="PCA",type="upper",addtextlabel="no")
corrplot(corr,add=TRUE, type="lower", method="square",order="PCA",addtextlabel="d")
## 天圆地扁
corrplot(corr,order="PCA",type="upper",addtextlabel="no")
corrplot(corr,add=TRUE, type="lower", method="ell",order="PCA",addtextlabel="d")

天圆地方

天圆地扁

不知道下一次更新又是什么时候,不过我希望最终版本号能比较靠近1.00~

############ 跑题 ###########

《长恨歌》曰:春风桃李花开日,秋雨梧桐叶落时。我觉得这两句极尽春秋之神韵,寥寥十四字意境全出,且留给读者无尽的遐想。今儿天气有变,让我稍稍嗅到了秋天的味道,虽未落雨,但还是在标题中加上一句“秋雨梧桐叶落时”,让corrplot乘机也附庸下风雅。

此外,天气转凉,暖气也快来了,但我还是干板+凉席,并且觉得很是惬意,不知在北京我会不会一年四季都这么继续下去。

 

十里平湖绿满天,玉簪暗暗惜华年。若得雨盖能相护,只羡鸳鸯不羡仙。

87版的电影《倩女幽魂》非常经典,里面的“十里平湖霜满天,寸寸青丝愁华年。对月形单望相护,只羡鸳鸯不羡仙。”让我着实陶醉,我曾经在七夕的时候给朋友们发过这段视频;不知道大家有没有被我雷到。

昨天听同学说《倩女幽魂》还有个60版的也很不错,古色古香的;我很好奇得看了下,才发现87版的诗是从60版的“十里平湖绿满天,玉簪暗暗惜华年。若得雨盖能相护,只羡鸳鸯不羡仙。”中修改而来的。玉簪暗暗惜华年,里面的“玉簪”指的是白莲花,小诗表的是宁采臣和聂小倩相互爱慕之情。本来想发一番感慨,但上了豆瓣看了些评论之后,我顿时觉得不用多此一举了。

玉簪暗暗惜华年

不过“玉簪暗暗惜华年”一句,让我很离奇也很自然地联想到了自学成才解决数理逻辑中Seetapun猜想的刘嘉忆学弟(原名刘路)。对于Seetapun猜想,我完全不了解,只是听说这是数理逻辑中比较有名的一个猜想。但我很早就知道他成天泡在图书馆,啃一些“硬骨头”:如莲之出淤泥而不染、濯清涟而不妖,能在浮华、堕落的大环境中整天泡在图书馆里,安静地、坚持不懈地做自己喜欢的事情。我没有想过能证明什么重要猜想,但我这份平淡的心态和坚持不懈却是我很最需要学习的。

此外,最近网络对此事的报道实在太多太杂,评论也很杂乱,比如在腾讯新浪科学网、新浪、腾讯微博等,其中有些评论还恶语中伤侯振挺老师;侯振挺老师很低调平和和蔼,是我本科阶段最敬重的老师,他在本科期间也自学解决了排队论中的三大难题之一“巴尔姆断言问题”,这一点倒和刘嘉忆学弟很像的。侯老师一向极为爱才惜才,对于刘嘉忆,也是如此;虽然专业不同,但侯老师还是很积极地努力为其争取资源并创造方便(比如让其提前毕业等),但一些媒体的新闻稿写得断章取义,很多不明真相的网民又开始骂人~

这次回沙一聚,得知刘嘉忆正在申请伯克利,他告诉我们他的GRE没有过申请学校的线,但既然他的文章能得到伯克利教授的赏识,我想对他来说GRE这个东西已经是可有可无的了。

刚刚得知刘嘉忆最近深受各路媒体烦扰,连朋友高涛学弟也被新华社骚扰。希望此事能迅速平静下来,长路漫漫,祝愿刘嘉忆能在学术的天空中飞得更高更远。

 

今天和CK蹭去中科院为严加安老师庆祝七十大寿,祝寿会议的主题是《随机分析及其在金融数学中的应用》。国内概率届的知名人士几乎都来全了(除了年岁太高来不了的),也包括一些从海外赶来的,热闹得紧。不过这次的报告都比较随意,报告人时不时谈了好多和严老师的八卦点滴。其中比较给力的八卦是严老师的书法、摄影颇有造诣,爱好诗歌并且非常潮!!下面摘录两首会议手册中严老师赞颂“淡定”和“给力”的16行诗,以作众乐:

论淡定的一首:

《淡定》
淡定是一种风度,
潇洒从容自如。
淡定是一种自信,
坚定沉着果断。
淡定是一种儒雅,
豁达宽宏大度。
淡定是一种智慧,
处事难得糊塗。
淡定是一种素质,
淡雅纯洁开朗。
淡定是一种品格,
诚信一如既往。
淡定是一种修养,
荣辱得失淡忘。
淡定是一种境界,
春风秋水阳光。

赞给力的一首:

《赞“给力”》
“给力”,一个多么神奇的词汇,
曾是“带劲”一词的闽南方言。
“给力”,凭借网络传播的快捷,
霎时间有了新的含义和韵味。
“给力”,赞美如此传神,
比“牛”和“酷”更振聋发聩。
“给力”,它吸引眼球、令人心醉,
难怪它在华人世界变得风靡。
“给力”或“不给力”,明快简洁,
对事物赞赏或鄙视做出果断判决。
“不给力”比“不带劲”更贴切,
斥责中包含委婉的遗憾和惋惜。
网络神奇,是文化传播的双刃剑,
既能推陈出新,又产出文化垃圾。
传承和繁荣中华文化,责任在肩,
弘扬真、善、美,抵制低俗诡谲。

更多参见这里

此外,今天还见到了侯振挺老师,很是亲切:)

至于今天的报告,我比较感兴趣的是马志明老师的Web Markov Skeleton Process (WMSP), 这里是一份关于WMSP的幻灯片。WMSP和侯老师提出的Markov Skeleton Process (MSP,参见这里的幻灯片及其参考文献)有所不同。侯老师的MSP是很宽泛的一类过程,而马老师的WMSP是和微软研究所合作的,直接面对WEB行为,更针对某一类具体问题,研究地更细更窄。

最后分享严老师于2006年10月在中国科大MPA探讨如何做科研的一些心得,说的非常好。下面是他的演讲内容:

一、打好基础、练好基本功

学习任何一门数学分支,首先要打好基础、练好基本功。所谓基本功,就是对基本概念和主要定理的理解和灵活应用,以及对主要定理证明技巧的掌握。我常用“工欲善其事,先必利其器”这一格言劝导学生打好基础。

二、博观而约取,厚积而薄发

华罗庚有一精辟的论点:获得书本知识是“从薄到厚”再“从厚到薄”的过程。宋朝大文学家苏轼有一名句言:“博观而约取,厚积而薄发”。前者是指“在博览群书时要汲取书中的要领和精髓”,这里“薄发”的原意是“不要随便发表意见”,后人把它引伸为“从大量的知识或材料积累中提炼出精华部分再著书立说”。我的座右铭是:不求著作等身,但企文章久远。

三、直觉、想象和灵感是科技创新的催化剂

对从事科学研究的人来说,最基本的素质应该是创新能力。唐代大文学家韩愈说过:“业精于勤,荒于嬉,毁于随。”这里所说的“随”就是指毫无创见。如何才能创新呢?爱因斯坦有一句名言:“想象力比知识更重要”。他在纪念普朗克60岁生日的演讲中又说:“物理学家的最高使命是得到那些普遍的基本定律,由此世界体系就能用单纯的演绎法建立起来。要通向这些定律,没有逻辑推理的途径,只有通 严加安 严加安过建立在经验的同感的理解之上的那种直觉”。数学家庞加莱也有一句名言:“我们靠逻辑来证明,但要靠直觉来发明”。这些名言告诉我们:创新的基础在于长期的知识积累,但更需要有丰富的想象力和敏锐的直觉。关于创新我有一个比喻:科技创新犹如化学反应,知识是载体,直觉、想象和灵感是催化剂。

长期的知识积累、丰富的想象力和敏锐的直觉是创新工作最重要的准备。除此以外,还要有其它的准备。首先,对研究的问题要有浓厚的兴趣,要全身心的投入,并对解决问题有强烈的愿望;其次,对别人在相关问题上获得的新结果要尽量去了解,要善于将不同结果进行对比;第三,要重视与同行讨论和交流。

四、创造产生机遇的环境

做出创新成果也需要有一定的机遇,但机遇只施惠于有准备的头脑(巴斯德语)。“机遇是可遇不可求”的说法是可以商榷的。我认为在一定条件下可以人为地去创造产生机遇的环境。我的做法是:为了保持研究活力和对研究问题有新鲜感,我每隔一段时期就改变自己的研究领域,因为在新领域里机遇会多一些。在改变研究领域的过渡期内,我往往也同时研究几个相关领域。我从1973年到1984年主要从事鞅论和随机过程一般理论的研究;从1985年到1995年主要从事白噪声分析研究,同时也研究鞅论和随机分析;从1995年到现在主要从事金融数学研究。上世纪80年代初,正是白噪声分析理论初创时期,我于1985年在斯特拉斯堡大学高等数学研究所访问时,Meyer教授建议我关注这一新领域。由于我有较好的泛函分析基础,我抓住了这一机遇,很快进入了白噪声分析领域,并做出了一些基础性贡献。我和Meyer教授合作提出的白噪声分析数学框架被文献称为“Meyer-Yan空间”,并被国际上权威的《数学百科全书》引述。

五、提高文化素质

做学问除了要提高自己的专业素质外,还要加强文学和艺术的修养来提高自己的文化素质。最近读了《中国研究生》第5期上登载的一篇记者采访华中科技大学前校长杨叔子院士的访谈录,很有同感。杨院士在对比人文思维和科学思维时说道:“人文思维是原创思维的主要源泉。人文思维是开放的形象思维,是直觉,是顿悟,是灵感,……,科学思维是逻辑思维,然而科学领域的原创性成就主要不源于逻辑思维,人文思维带来的令人惊叹的灵感与‘猜想’,才能实现原创性。”他援引了爱因斯坦的如下名言:“物理给我知识,艺术给我想象力,知识是有限的,而艺术所开拓的想象力是无限的。”我猜测爱因斯坦所说的“艺术”是泛指“人文文化”。“科学文化”与“人文文化”的关系就是科学与艺术的关系。科学家的理论和艺术家的作品一样,都不可能是对客观事物绝对的和纯粹的反映或描述,而是对客观事物的某些特征的一种“模式化”的构思和思维的创造。

六、数学的美学标准

“真”与“美”是评价科学与艺术的共同准则。对数学研究而言,“真”的准则是不言而喻的,而且是容易达到的,因为任何一个在逻辑推理上正确无误的数学命题都是“真”的。对一项数学成果的评价,一是看它的学术价值,二是看它的美。数学家哈代关于数学的美有如下精辟的论述:“数学家的模式正像画家或诗人的模式一样,必须是充满美感的;数学的概念就像画家的颜色或诗人的文字一样,也必须和谐一致。美感是首要的试金石,丑陋的数学在世上是站不住脚的。”他又说:“数学定理的美在很大程度上依赖其严肃性,……。一个‘严肃’的定理是一个包含‘有意义的’概念的定理。”我认为一个对数学缺乏美感的人是很难做出美的数学来的。如何培养自己的数学的审美观和鉴赏力?阅读数学大师们的论著是一个有效途径。

七、做学问的思想境界

下面谈谈做学问的思想境界问题。王国维在《人间词话》的开题中说:“词以境界为最上。有境界则自成高格,自有名句”。他写道:“古今之成大事业、大学问者,必经过三种之境 严加安获奖书法界:‘昨夜西风凋碧树。独上高楼,望尽天涯路。’此第一境界也。‘衣带渐宽终不悔,为伊消得人憔悴。’此第二境界也。 ‘众里寻她千百度,蓦然回首,那人正在,灯火阑珊处。’此第三境界也。”这里王国维借用晏殊的词句来比喻开始做学问时的踌躇满志的心态;他借用柳永表现爱情的词句来比喻做学问要有“锲而不舍、甘愿奉献”的精神;他借用辛弃疾赞美一超俗女子的词句来比喻做学问要“淡泊名利、自甘寂寞、不随波逐流”。 当前在学术界有一种急功近利的“三F现象”:浮躁,肤浅,浮夸。

最后,我想用俄国文学家赫尔岑的如下一段话来结束我的讲演:“在科学上,除了汗流满面是没有其它获致办法的;热情也罢,幻想也罢,以整个身心渴望也罢,都不能代替劳动。”

 

今天Google的时候突然发现搜索栏中右边多出了个语音符号:

点击了一下发现出现提示词“请开始说话”,说完之后自动进行语音识别,然后即时搜索。结果让我非常兴奋,因为太精准了,甚至用方言(兰州话)都可以!!有图有真相。

真相1:

真相2:

不过我试了半天谢益辉的名字,结果木有识别出来。

什么时候笔记本可以设置语音密码啊,开机验证身份时候直接喊一声就完事!

 

刚从合肥回来,参加了第一届数据挖掘邀请赛答辩。除了之后的一些琐碎的扫尾工作,数据挖掘这事终于可以消停下来了。

本次数据挖掘邀请赛是科大统计建模赛的一次升华,也是数据挖掘方面全国性竞赛的第一次尝试。反观整个比赛,总体而言还算是比较成功的,个人总结的一些原因如下(原因之间不独立且存在交互效应):

  • 题目很好。体现在两个方面:1. 数据很真实,题目很实在。用的是赞助公司真刀真枪的数据,非常宝贵,很有分析、挖掘的价值。2. 占尽了天时,当下SNS极其火爆,其中推荐系统更是创收赚钱的核心系统之一。
  • 取得了高校师生的大力支持和捧场。最终注册的队伍一共有1115支,抛去无效队伍及马甲,仍然远远高于我们的预期。除了主办方中国科技大学和中国人民大学在比赛组织方面的大力支持之外,我们发现还有很多学校的老师很积极的鼓励学生参加,有些队伍是老师看到了消息鼓励学生参加的,有些队伍的实验室在刚公布得奖消息就贴出了喜报。
  • 有科大、人大、统计之都的各位同学乐意跑腿干活,包括各种琐碎而又必须做的事情,比如和公司、老师、参赛队伍的各种交流。此外,微博、校内、校园BBS、各大论坛上的宣传也使竞赛能让感兴趣的同学及早知道消息,感谢SNS。
  • 得到了上海花千树信息科技有限公司的资金赞助,这点自然也很重要。

当然不足之处也很多,比如

  • 经验不丰富,很多细节没在一开始就考虑周全。比如注册系统太宽松、题目的微调、提交系统的出的一些问题。
  • 目前竞赛还处于探索性阶段,没有像数学建模那样有号召力和影响力,缺乏长期性的、有号召力、有经验的组织者,竞赛还没有形成一个固定的委员会来常年负责此事。

赛事花絮

  • 我们最开始的打算是只限于科大和人大两个发起方参赛,因为组织什么都比较麻烦,但最后才决定开放到所有高校。事先预计的参赛队队伍是30~40个,严重低估了大家的热情!
  • 刚开始纠结给竞赛取什么名字好,后来觉得还是冠以“全国”比较霸气也符合实际,后来也证实这一点。我们希望以后这个赛事能成长起来,每次都以一家公司的实际题目为背景,让更多学生都乐于参加,这样起点就会比数学建模高很多(数模的很多题目都很烂)。
  • 有好些海外学生、海外老师要以及业界人士要求参赛(有些只是为了索求数据),但出于保密、比赛经费等原因,还是很不好意思地拒绝了。
  • 注册队伍数目1115个,其中有效注册队伍在1000左右。当然在这1000个左右队伍中,有相当一部分是纯粹下载数据的,拿到了数据就杳无音讯了;还有一部分是马甲,用来多次在线提交以便测试效果。还有一部分队伍是做得不好,没有在线提交结果。
  • 公司给我们的是现金,当初和林妹妹背了个书包去拿钱,觉得一大推钱背起来挺舒服惬意的~~当然现在已经花光啦

此外,很感谢中科大统计与金融系师生的款待,他们都很随和、热情,没有距离感。尤其是张伟平老师,非常随和,我们和他在一起感觉和朋友一样,毫不拘束,并且还开车送我们去机场:) ……  张老师的主页在此:http://staff.ustc.edu.cn/~zwp/ ,其中教学链接中给出了他上过的课的电子材料,非常赞。我在本科的时候就发现了,没想到可以如此有缘,世界着实很小~

 

#########################跑题说囧事#####################

XX领导从合肥回北京的机票是我订的,但很狗血的是:我把票给订反了,弄成了北京到合肥!!他到了机场才发现(我们不是一个航班),只好再买张全价票了(幸好还有)。我这两天看见他都一直胆战心惊的(其实XX一直很淡定+和蔼),这么愚蠢可笑的错误肯定一辈子都忘不掉了。

 

##很意识流,很乱。不忍心看的读者直接下载最后的文章吧

转眼间,R会议已经从第一届办到了第四届,时间过得真快!

我之前参加过第一、二届中国R会议,觉得它为广大国内R用户提供了一个交流沟通的舞台,在这个舞台上,大家交流的最多的并不是R本身的技巧,而是面对某一个学术问题或者实际问题,强调问题分析和解决方法,而不是语言本身;并且整个社区都是其乐融融,很让人温馨感动的。我想这一点是很重要的,否则单纯一个语言什么的肯定没什么太多乐子。当然,各行各业的useR朋友们能因此契机聚在一起,聆听下自己不熟悉领域的朋友们面对的数据分析任务以及解决方案也是很能开阔眼界的。R本身只是一个软件或者语言,但由于设计理念以及其开源免费等特点,越来越多的数据分析方法在R上得以实现,也因为这个原因,R也已成长为一个平台环境。

记得我第一次参加中国R会议的时候还是诚惶诚恐的,怕自己讲的东西太肤浅被人笑话。好在组委会以及COS论坛上的朋友们都极为热心,在他们的怂恿撺掇之下才敢去献丑。而今天,我突然华丽转身成了会议的打杂人员之一,觉得很是诡异,很是离奇。

记得当初还写了一篇R和最优化的小文章,曾经想着多多充实一下,最终以比较完整的形式放出来(还想过出版什么的)。但后来事情越来越多,拖了很长时间,如今只好公开出来下载,欢迎大家批评指正。后面的旅游路线地图是截取自该文,表示TSP形式游玩中国34个省级行政中心的最短路线(只考虑球面距离,飞机路线应该差不多能符合图中要求),我觉得这个图还比较好玩,故贴上来乐一乐。

最后,欢迎大家参加第四届R会议,期待能听到大家的精彩演讲。

《R软件在最优化中的应用》GitHub主页(包括PDF文档下载)

 

 

 

 

之前R中一直用rimage包读图,但rimage功能较弱,并且早已被作者抛弃,成为无人照料的孤包。今天在寻找Lena数据的时候发现了一个R包 EBImage,非常好用,可以读取很多种格式的文件(通过ImageMagick),并且定制了一个非常适合查看图片的窗口;更重要的是这个包还包含了一些图像处理方面的算法,包括特征提取等。EBImage是放在Bioconductor上的,依赖于ImageMagick (>= 6.3.7)和GTK+ (> 2.6),安装方法、介绍等文件见此

Lena是个非常漂亮的瑞典模特,本来与数字图像处理等学术领域八竿子打不着。但是她的一次在花花公子杂志上的高调亮相,使她从此成为学术paper中玉照曝光率最高的女人(没有之一):因为她的那张图的上半身从此成为数字图像处理中的标准图像,被该领域的所有学者曾经用来测试自己的算法等(当然在测试的时候有可能也YY一下)。David C.Munson认为Lena这张图如此走红有两大原因:

  • 这张图像包含了各种细节、平滑区域、阴影和纹理,对测试各种图像处理算法很有用。它是一副很好的测试图像!
  • Lena图像里是一个很迷人的女子。所以不必奇怪图像处理领域里的人(大部分为男性)被一副迷人的图像吸引。

不仅如此,Lena还于1997年被邀请为嘉宾,参加了数字图像科学技术50周年学术会议。在会议上,她成了最受欢迎的人之一,她做了发言,并被无数的粉丝索取签名。在这些粉丝眼中,Lena可能不仅仅是一位漂亮的模特,或许更是一种学术情感的寄托。这不知会让多少该行业的女研究员们艳羡嫉妒啊~

八卦之后,简单给出EBImage包读图的例子,大家可以观察一下窗口界面。

require("EBImage")
## 绘制Lena
lenac = readImage(system.file("images", "lena-color.png", package="EBImage"))
display(lenac)
## 读取网络图像pi并绘制
XXlogo <- readImage("http://t.cn/hdqPPd")
display(XXlogo)

 

最近想稍微窥探一下统计中的小波分析之应用,找了本英国Bristol大学G.P. NASON写的Wavelet Methods in Statistics with R。不过翻开前言后,发现竟然出现了周恩来总理的赫赫大名,很是惊讶。细一看,原来是作者引用总理的话来进行类比说理,很佩服Nason渊博的历史知识啊。

随便翻译一下,中译文后面附上原文以正视听:

中国总理(1947-1976)周恩来先生在被问及他对法国大革命观点的时候如此回答,“现在评论还为时过早”;我觉得这个说法也同样适应于小波分析。尽管一些特殊小波的发现已经很有些历史了,但是真正能被称之为“小波理论”的主体架构的建立才仅仅是上个世纪80年代的事情。统计学中引入小波分析是在80年代末和90年代初,最初主要在曲线估计方面比较流行,后来以各种方式逐渐渗透到许多领域,比如生存分析、时间序列分析、图像处理、逆问题、变异数稳定变换等。

When Zhou Enlai, Premier of the People’s Republic of China (1949–1976), was asked his opinion of the French Revolution (1789–1799) he replied “It’s too early to tell”, see Rosenberg (1999). I believe that the same can be said about wavelets. Although particular wavelets were discovered many years ago, the substantial body of literature that we might today call ‘wavelet theory’ began to be established during the 1980s. Wavelets were introduced into statistics during the late 1980s and early 1990s, and they were initially popular in the curve estimation literature. From there they spread in different ways to many areas such as survival analysis, statistical time series analysis, statistical image processing, inverse problems, and variance stabilization.

后面的一段就简述了傅里叶级数的曲折历史和对小波分析的肯定与憧憬。傅里叶的那篇开天辟地巨作也着实命运忐忑,这篇论文经 J.-L.拉格朗日, P.-S.拉普拉斯, A.-M.勒让德等著名数学家审查,由于文中初始温度展开为三角级数的提法与拉格朗日关于三角级数的观点相矛盾,而遭拒绝。由于拉格朗日的强烈反对,傅里叶的论文无以得见天日。1811年傅立叶又提交了他修改后的论文,在里面提出了傅立叶级数和傅立叶积分的创新思想和方法,因而这篇关于热传导问题论文获得了1812年科学院大奖,但是这篇论文因为在论证方面仍然缺乏严密性而未能在科学院的院刊《科学院报告》上正式发表。傅里叶自然对此极为愤懑,但也别无他法。直到他1817年被选为科学院院士,并于1822年成为科学院的终身秘书后,才将他的这篇大作原封不动的放在了他的专著《热的解析理论》中。

法国大革命也是傅里叶级数引入的大历史背景;傅里叶级数引入之后,招来了科研界的各种尖锐的批评(参见Westheimer (2001))。尽管早期存在如此之多的争议,但我们发现在200年后,许多新的傅里叶方法如雨后春笋般的在各个领域中生根发芽。无疑,小波也是科学界的一次革命。它的许多有趣的特点很快得到了认可和欣赏,比如多尺度性、局部性、计算速度等。但其他一些重要问题(比如无条件基),还有待进一步研究。我希望本书能在较小的层面上创建一些新的小波方法。我也坚信小波分析将会在接下来的200年凸显其重要性并继续蓬勃发展。

The French Revolution was also the historical backdrop for the introduction of Fourier series which itself raised considerable objections from the scientific establishment of the day, see Westheimer (2001). Despite those early objections, we find that, 200 years later, many new Fourier techniques are regularly being invented in many different fields. Wavelets are also a true scientific revolution. Some of their interesting features are easy to appreciate: e.g., multiscale, localization, or speed. Other important aspects, such as the unconditional basis property, deserve to be better known. I hope that this book, in some small way, enables the creation of many new wavelet methods. Wavelet methods will be developed and important for another 200 years!

该书作者还写了个小波分析方面的R包wavethresh,为广大R用户提供了很大的便捷。里面有个图像数据颇为可爱,鄙人岂敢独享?奇图共欣赏,故放上来以飨大家。当然,本系列的后续博文会经常提到这只小熊的,并对其进行各种变换。

library("wavethresh")
data(teddy)
par(mar=c(0,0,0,0))
image(teddy)

 

PS1: 关于教科书中出现政治人物,恐怕太祖是空前绝后了,一个精彩案例在此

PS2:本博文纯属八卦,故小波分析系列号为零。后续博文会逐步讨论本人对小波分析的一些学习心得;不妥之处,还请大家多多莅临指点。

PS3:这个博客几乎一年没有更新了,从今日起会时常抽空写点东西,多做总结;这一年也是我事情最多的一年,感谢陪伴我、鼓励我、关心我的各位朋友和老师~~~

© 2010 优秀是一种习惯 taiyun.wei@cos.name Suffusion theme by Sayontan Sinha