Categories
我的生活状态

七月的上海

7月7日,上海,已然盛夏。标志:烦躁的鸣个不停的蝉,30摄氏度的早晨八点。

DSC03993

第一个在上海度过的夏天。措不及防。每天坚持着来往12KM之外的公司,只是越来越迷恋五角场的生活气息。

读书,读很多书。清一色的发现自己读过的80%~90%的书籍都跟经济学有关的时候,有点落寞。桌子上摆了好久的《中国哲学史》,连打开的勇气都没有。旁边的一本本数学书却被翻了许多次。悲哀。

写无尽的代码,感慨那曾经用来发散思维的右脑居然慢慢的形成了程序化思维。悲哀。

只是暂时的代价吧。至少,还能维持一种简单的美好的生活姿态。一杯冰饮,几瓣西柚。对付着火烧火燎的喉咙。应景一下,哼一句:

七月七日长生殿,半夜无人私语时。
在天愿做比翼鸟,在地愿为连理枝。

Categories
读书有感

再读「数学之美」

今天难得的一点专注时间,打开了「数学之美」,实体书的阅读果然还是比较舒服。

和Google黑板报版相比,正式出版的版本的确增加了不少的内容,如果想深入的多了解某个算法一点,会合适的多。不过某种程度上感觉,没有黑板报版那么引人入胜了,写作风格变得更严谨了。

书不是很厚,加上排版比较宽松,其实看起来还是蛮快的。看到后面,突然对“条件随机场”这种东西产生了莫名的好奇感,然后匆匆的看过去,还是蛮好玩的。在过去的一年中,慢慢的揭开了自然语言处理的各种面纱,这个领域还真的是蛮好玩的,也看到那么多聪明的中国人在此不懈耕耘造就的各种神奇。比如,我用来打这篇日志的输入法——经过很长一段时间的训练之后,他越来越聪明的可以捕捉到我想说什么,打字的过程已经不会影响到思维了。对比以前用智能ABC的日子,突然觉得生活真的是美好了许多。而这一切背后的辛勤劳动,都离不开算法的支撑和我们对于数字信息理解的深入。

此外,还顺便看了一眼奇异值分解(SVD),以及MapReduce,反正对于各种可以降低算法复杂度的思路,都是很能裨益工作的。曾经很多人不知道“线性代数”这门课有什么用...从我个人经历来说,从学完它就一直在用,各种用。简洁的神奇。

还是挺好的一本书,就是浅了一些,有些深入的东西可能确实比较难以直观的描述出来。Machine learning果然还是需要下苦工的一个领域。

Categories
读书有感

略读「数学之美」

继前段时间匆匆瞄过「浪潮之巅」后,注意到最近作者又出了另一本书,「数学之美」,便寻思着一定要有时间读一下。搜了一下才发现原来早在06-07年,这些就在google黑板报上连载了。唉,当年是有多么的孤陋寡闻,才会浑然不知--说不定那年要是看到了,就会直接投奔CS去了,自此和econ无缘了。哈哈,时间不能倒流,玩笑而已。

google黑板报上的版本不长,昨天从杭州回来的高铁上匆匆便略读完了。从自然语言处理,到输入法,到语音识别,到排名算法,到anti-spam;从隐性马尔科夫模型,到贝叶斯网络,到pagerank,到"简单而有效"的必杀刃...算法的魅力在作者笔下翩然而现,不禁勾起了我心底的贪婪。看到优雅的条件概率公式,恩,世界被数学描述的真的是挺美好的。

不知道为什么,接触了很多CS出身的出色的工程师们,一边惊叹于他们卓越的coding能力和创造、组合工具的能力,另一边却又不知为什么总隐约觉得他们的统计学背景并不是那么的solid-换言之,统计分析的sense远远比不上熟练应用算法的能力。虽说术业有专攻,可是算法这么迷人的东西...好吧,我总是对于美好的事物,不由自主的表现出贪婪和心向往之。

看看接下来的一段时间,如果确实无聊,可以考虑静下心来学一段时间的算法,很多算法模型都是知道个大概却没有那么确切,心里也难免惶惶不可终日。有的时候确实是眼高手低了,好多东西都没有深深地挖掘过。浅尝辄止不是一件好事恩,还是自己推导出来的东西更能铭记于心。

话说,明天的R会议,我会发挥娱乐大众的功用,讲一些统计分析好玩的应用。基本是上次给松鼠会讲的「别让数字吓到你」的升级版,加入了一些稍稍高级的分析方法,然后案例也有增有减。为了吸引观众,我只能无情的拿cos开刀,有一些关于cos的内幕会被无情的曝光,还有依照惯例现场观众会被调戏--嘻嘻,不调戏你们一番你们怎么能记得住呢?这才不枉我又花钱又花时间跑到北京来一趟嘛。希望明天我的状态会比较好吧,喵~

Categories
读书有感

have to make a note

前几天说要看intro to algorithms,然后居然真的看起来了。我都服了自己了。现在已经达到追美剧的水平了(我就去down了个MIT的公开课,也没字幕什么的,就直接当看美剧了),频率基本一天一集,时间大都在晚上9点以后。我为什么说是看美剧呢,看美剧前总是很自责的跟自己说不要浪费时间,看一会儿就好,然后不知不觉就看完了;看这个教程也是,劝着自己要慢点要慢点,不要一口气看太多,结果每次都是欲罢不能的非要看完一集不可。OMG...我突然发现自己原来这么喜欢做学生的状态啊,恍然一下子回到了2010年冬天lugosi的real analysis课程上,那么的欲罢不能啊!

今天看完了第三集,讲的是各种奇妙的算法。前面的都还好,基本在他讲的时候我就可以跟着想出来后面大概是什么……直到Fibonacci数列,突然看到这种东西,顿时眼前一亮!怎么就没想到可以用矩阵乘法哩?后面看到了矩阵乘法的算法化简思路,明明知道可以用分块矩阵,原来是这样磨来磨去才可以达到O(N^3)一下的啊,也终于明白前阵子看到一篇文章说什么“矩阵乘法的时间复杂度降到2.xxx了”是什么缘故了;最后看到那个"H"形状的树,刹那间明白为啥那么多geek都痴迷于分形了……recursion啊,divide and conquer,真神奇!

不得不在这里稍稍记录一下,原来算法真的这么好玩啊!各种后悔当年没有去学这门课……还好,亡羊补牢,不晚不晚,至少这门课的什么先修课知识(主要是一堆数学知识)我都知道,所以现在还能跟得上看得懂,欣慰+无限庆幸中……数学,或者说逻辑,永远都是那么的好玩啊。

----
最近难得在上海的零碎时间,一直流连在上海图书馆里面。突然间发现自己还是这么喜欢书香的味道,喜欢被书架环绕的氛围(一下子仿佛回到了大三烤G的那段时间),喜欢从架子里取出红皮的AER慢慢翻看(不知为什么,看QJE什么的次数越来越少,AER仿佛成为了我和经济学的最敏感连系),喜欢获取知识的感觉。说白了,喜欢自己做学生的状态吧。清净,充实。

Categories
事儿关经济 经济、IT观察与思考

跨学科研究之殇

今天看到木遥的一篇文章:为什么跨学科的研究项目是件残酷的事,略有感触,在此罗嗦几句。

1. 经济学大量吸收了数学家,Arrow之后更是有一系列微观理论数理化的变革,Laffont的加入对于博弈论的影响扩大也不可或缺。这些人,在当年应该都算是“跨学科”的吧,经济和数学总是走的那么近,和统计学就更不用说了。
2. 很多学科领域都在期待数学工具的变革和进步,很多学科的突破式发展也是得益于数学工具的引入。物理和数学的渊源就不用说了,生物这些年来也多多少少依赖着好多数学工具的发展。另外从某种层次上,计算机和数学是不分家的……
3. 交叉学科研究最难的是,要求一个人具备两个、或者更多领域相对专业的知识。某一个领域少了一点,都不足以支撑一个突破性研究的进展。或者应该这么说,纯知识是好学的,关键是习惯两个以上领域的思维方式,知道他们分别关心的是什么,然后找到交叉点,这是我觉得对人要求最高的。隔行如隔山,很多时候确实如此。

最后补一句,最近常用一句话,

偏见源于无知

无知请理解为“某种知识的欠缺”。举个简单的例子,一个统计调查和研究估计往往首先要考虑的问题之一就是,样本是不是selected sample。简单的说,你不能跑到东北去进行人口身高采样然后回来告诉大家这就是中国人的平均身高(而某些国际研究,限于资金人力,往往在一个国家就取一个或者几个点)。selected sample,以及我们耳熟能闻的truncted data, censored data 等等,都是样本较之于总体的缺陷,自然会造成最后估计的偏颇。这也是很多时候,为了保持无偏(一致)性,我们需要根据样本的特征加上各种假设(比如Tobit模型)进行修正,然后才能得到基于假设下面的一致估计。

这是从统计或者计量的角度说这个估计的事儿,那么扩展一点,统计的本质无非是“归纳法”(此处特指相比于演绎法),那么自然是基于已有的信息集作出对已经发生的事件的判断。如果信息集不全,正如我对“无知”一词在上面的运用,那么得出的结论必然多多少少是有所偏颇的(无偏成为了小概率事件)。从这个角度来说,跨学科研究对于研究者多领域知识的高要求,在我的理解中,是这些研究突破困难但是珍贵的最主要原因(至于是不是偏颇,我们只能说这里无偏就更加的是一种信念了,没有什么可以衡量比对的依据了)。

终归,在一个充满噪音的信息集里面,找到有效信息,是一个脑力+体力活。Ph.D在我看来,值钱的地方正是这种孜孜以求的苦干精神,怕是真的与上上课就能学来的知识、和考考试就能获得的分数或者证书没什么关系。至于木遥所说的就业问题,呃,学界容不下还有业界……不要这么看不起业界……实践也能出真知啊。从学术研究突破所需的资源来看,业界能提供给研究的资源是完全不同的,所谓换个角度看世界嘛。