Categories
读书有感

have to make a note

前几天说要看intro to algorithms,然后居然真的看起来了。我都服了自己了。现在已经达到追美剧的水平了(我就去down了个MIT的公开课,也没字幕什么的,就直接当看美剧了),频率基本一天一集,时间大都在晚上9点以后。我为什么说是看美剧呢,看美剧前总是很自责的跟自己说不要浪费时间,看一会儿就好,然后不知不觉就看完了;看这个教程也是,劝着自己要慢点要慢点,不要一口气看太多,结果每次都是欲罢不能的非要看完一集不可。OMG...我突然发现自己原来这么喜欢做学生的状态啊,恍然一下子回到了2010年冬天lugosi的real analysis课程上,那么的欲罢不能啊!

今天看完了第三集,讲的是各种奇妙的算法。前面的都还好,基本在他讲的时候我就可以跟着想出来后面大概是什么……直到Fibonacci数列,突然看到这种东西,顿时眼前一亮!怎么就没想到可以用矩阵乘法哩?后面看到了矩阵乘法的算法化简思路,明明知道可以用分块矩阵,原来是这样磨来磨去才可以达到O(N^3)一下的啊,也终于明白前阵子看到一篇文章说什么“矩阵乘法的时间复杂度降到2.xxx了”是什么缘故了;最后看到那个"H"形状的树,刹那间明白为啥那么多geek都痴迷于分形了……recursion啊,divide and conquer,真神奇!

不得不在这里稍稍记录一下,原来算法真的这么好玩啊!各种后悔当年没有去学这门课……还好,亡羊补牢,不晚不晚,至少这门课的什么先修课知识(主要是一堆数学知识)我都知道,所以现在还能跟得上看得懂,欣慰+无限庆幸中……数学,或者说逻辑,永远都是那么的好玩啊。

----
最近难得在上海的零碎时间,一直流连在上海图书馆里面。突然间发现自己还是这么喜欢书香的味道,喜欢被书架环绕的氛围(一下子仿佛回到了大三烤G的那段时间),喜欢从架子里取出红皮的AER慢慢翻看(不知为什么,看QJE什么的次数越来越少,AER仿佛成为了我和经济学的最敏感连系),喜欢获取知识的感觉。说白了,喜欢自己做学生的状态吧。清净,充实。

Categories
网络新发现

无知的受伤

真的觉得自己有的时候就是没缘由的狂妄,班门弄斧地在各种数学专业的面前卖弄……唉。不丢人就奇怪了。

一大早,一同学QQ问我一个很“深奥”的题,大概就是一群人在排队,怎么来比较快。当时我脑子转啊转,最多也只想到运筹里面涉及的星星点点的图论,然后在R里面弄了半天连穷举怎么举都没想出来……顿时感觉各种悲哀。

最后,忍不住去网上搜了一下,找到了出题教授的网站,然后顺利下到了一个solutions文件。当看到答案的时候,抽了一口凉气,Johnson’s algorithm?这是个神马东东?

果然,算法设计还是一个比较精妙的问题,像我这种连《算法导论》都没读过的人,怎么可能玩的转呢?最近不是很流行的在说,“以大多数人努力程度之低,根本轮不到去拼天赋”。哎!我就是好高骛远、无知使得自己到处丢人的典范啊。

好吧,我觉得还是有必要去读读《算法导论》了,至少这个Johnson’s algorithm我第一遍看wiki没看明白,没找到直觉和来龙去脉什么的。伤心啊。排队论排队论……算法果然水很深啊。

Categories
经济、IT观察与思考

千里之堤,溃于蚁穴

最近连续有人说我“过于认真”了……当然知道这并不是一个贬义词儿,但是这样也意味着某种灵活性的损失吧。本来一个人两个人说我我是不会在意的,或者跟我生活工作没啥交集的我也不会在意的,但是偏偏是几个跟我最近接触比较多、指导我工作也比较多的,所以我就不得不格外留心了。

学经济的时候感觉,如果数学家看到我们的文章,一定会被气死的,太不够严谨了……同样的,刚开始工作的时候看到周围人写的各种report,强烈无语。这个,不仅仅是方法论的问题啊,有时候基本的逻辑都不通啊。后来曾经和若干正在读Ph.D的朋友谈及此事,感觉他们对于各种商业报告的鄙夷确实并不是无不道理的,但是仅限于理解他们的想法,毕竟除了自己手下出来的东西,其他人的东西都是不可控的,而且对所有人都要求一个很高的statistical and analytical sense完美结合,是不现实的……这个时候,才觉得自己做的最有价值的事儿,或许就是在一堆纷繁的数据里面,有一些清晰的分析策略和指标形成吧。好像学了半天经济学,最大的收获就是遇到问题不会完全的不知所措,还是知道怎么可以一层层剥开坚壳看内涵的。

千里之堤,溃于蚁穴啊。多少对于统计模型的乱用、统计结果的错误解读(前几天微博上流传着一句“很多分析师是用直觉强奸数据”),导致了后期决策的偏差。也正是因为自己接触到的都是第一手的数据,清清楚楚的可以从一行行R代码里面知道各种指标是怎么计算出来的,才可以对某些人对于结果的一厢情愿的解读、理直气壮的提出意见吧。有些事情,过分的“完美主义”是不必须的,但是统计结果和指标制定,我觉得认真还是应该是第一原则吧。

至于统计模型……我想说,看过了这么多其妙的算法啊,模型啊,其实觉得很多时候是“殊途同归”和“返璞归真”。有的时候,把握一个方向确实比多么精确的去测度一个指标更重要。在一个实际的business里面,大家关注的并不是学术界的各种指标,更多的是“好用、易用、实用”而已。像我这种有时候“完美癖”发作的,确实感到一种现实过于骨干的痛苦……但是也没有办法。毕竟你关心的,大多数人是不关心的。同样的,很多开发人员、算法设计人员关心的事儿,在我这里看来也不是那么重要……最多能理解他们,但是,亲,真的,很多事情没有你想象的那么重要的。

最后,罗嗦一句,CV毕竟是面子工程啊……亲,别乱写行不行,排版漂亮点行不行?在这个信息浩繁的时代,酒香也怕窖子深啊~

Categories
互联网产业观察 读书有感

回顾了一下IT业发展史

如果说现在IT行业的大潮流是什么,除了云计算之外,怕就是移动互联网了。从来没有一个时期像现在这样,手机、电脑、平板相互之间如此相似。所有的终端似乎都要联入互联网,才显得有生命力(好吧,我那个非智能手机啊,呵呵)。Any time, any where,网络确实改变了信息传输的效率,和生活模式。

所谓忆苦思甜,今天就回顾了一下过去一个世纪的互联网发展史,或者简单的说,一系列的公司成长史和消亡史(每一次的心潮澎湃和英雄暮年)。其实大多数耳熟能详的公司的小故事都听过,但是若是说整理起来一起看一下,还真不曾这么系统过。最近一位制造业的朋友推荐了一本《浪潮之巅》,拖了一个多月没翻,但是再不读完我这还怎么自诩“弄潮儿”啊,于是今天干脆一口气读完了。

可以说,没有什么惊喜,大都是一些熟悉的故事。但是有意思的是,作者把这些故事用自己的脉络串联起来的方式。一个个IT行业下细分的领域,一家家高处不胜寒的公司……一个个数过来,还真是蛮有意思的。我读过之后,没什么太多深入思考的地方,可能这本书还是太偏技术了,更像是一个“雾中看花”的技术翘楚写出来的切身感受。涉及到公司营运、资金管控等等所用的角度和描述方式,就和我的兴趣点有所偏离了。或许现在有些麻木了,心更想寻求一种安定和宁静了。

不过,还是很好的,静下心来看待IT业这么一波波潮来潮涌、月缺月圆故事的好机会。打发时间还是不错的,至少还是可以小小励志一下的、免得太消沉,呵呵。

Life, will be better, when shared with people who have the same interests :) 求同存异,分享各个行业的辉煌,学习自己所未曾接触的经验,总是有趣的。最近真的在感叹,海阔凭鱼跃,天高任鸟飞,却也是林子大了什么鸟都有啊!乐在探索。

Categories
事儿关经济

(线性)相关性的迷惑与数据挖掘

今天刚刚看到TED的一个视频。以前的时候总是听到TED的大名,但是一直没有怎么看。刚才的是关于统计分析的,感觉很有意思,见:http://v.163.com/movie/2011/7/L/1/M7805EO9V_M7805PEL1.html

TED可能受众是大众一点,所以演讲者更多以举例为主。这个就是以TED现有演讲为基础,来黑色幽默的展示统计分析可能带来的误导和违背常识。哈哈,一如既往熟悉的美式幽默风格呢!

里面有很多例子,比如“受欢迎的演讲者”一般头发要长一些,之类之类很简单的相关性统计。然后给出了一个终极TED演讲模板……当然有点搞笑了。不过这也让我想到,关于“相关性”和“因果关系”之间,我们应该怎么更好的结合起来。统计分析最常规的就是给出相关关系,不管是线性的还是非线性的,以试图寻找连系事物之间的线索。同样的,数据挖掘也是做的这个事儿,在一群纷繁的数据中,找出有价值的信息,往往也是两个事物之间的连系。

大多数情况下,相关性分析是符合我们直觉的,也会给接下来的业务开展带来极大的指导意义,比如那个最著名的“啤酒与尿布”。但是现在大量与我看来有些莫名其妙的统计模型的引入,尤其是计算机发展后算法实现的便利,很多人不管三七二十一就开始套用算法了。没有直觉的算法我还是觉得不靠谱,尤其是无法用经济原理来解释的人类的行为。一个算法或者统计模型分析出来的结果,只有通过演绎法下面的经济原理检验,我才觉得是可以信赖的。违法直觉的结果强行应用,怕是事得其反。

有名的例子有很多,比如最早的时候联合国做扶贫,思路很简单,就是若干统计研究发现,一个国家接受的FDI(外来直接投资)和GDP正相关,所以想当然的认为只要给非洲等贫困国家大量的资金支援,他们就能产生经济增长和发展……然后呢?一笔笔钱显然是白扔进去了。FDI水土不服的例子有的是。显然,这里的问题就是,FDI和GDP确实是有正相关关系,但不见得是因果关系,所以就算FDI扔进去也不见得GDP就会产生。一个线性估计模型出来的参数,可不是这么简单的就适用哦。这也就是计量经济学家们一直纠结的内生性问题——两个变量之间本身就是相互促进和影响的。

这也是为什么,从一个政策制定指导的角度,计量经济学会首先侧重于一个估计量的“一致性”而不是一味的追求估计精度的提高和预测的准确性,这个和金融里面的关注点差别就会蛮大了。这也是我比较欣赏计量经济学思路的一个地方。相比于大多数很fancy的统计学模型和计算机算法,计量经济学还是比较务实的希望先把握准一个方向,然后才去细细地寻找一种解决的策略。现在身在业界,更是体会到一项商业活动找准方向是多么的重要。否则,一旦大趋势改变而我们浑然不觉,那么什么算法模型都只能是一时的准确,而很快就会消亡,毕竟只是在猜而没有一个坚实的基础。

所以,从这个意义上,我一直觉得经济学看问题还是有它自己的深度和远度的,无论是演绎法之下的经济原理与分析模型,还是归纳法之下的计量经济学。从相关性到因果关系,往往还有很长的一段路要走的。走通了,自然登高望远风景无限秀丽。不过,这其中的辛苦也是当事人自知啊~

开发算法固然不容易,但是能把算法找到坚实的基础支撑和准确的应用,再进一步提出算法的优化和进化要求,更是一种考验智力和耐心的事儿。这么看,economic consultant真的是最最伤不起的职位啊!还要懂得如何深入浅出的展现结果啊!太历练人了!