Categories
经济、IT观察与思考

千里之堤,溃于蚁穴

最近连续有人说我“过于认真”了……当然知道这并不是一个贬义词儿,但是这样也意味着某种灵活性的损失吧。本来一个人两个人说我我是不会在意的,或者跟我生活工作没啥交集的我也不会在意的,但是偏偏是几个跟我最近接触比较多、指导我工作也比较多的,所以我就不得不格外留心了。

学经济的时候感觉,如果数学家看到我们的文章,一定会被气死的,太不够严谨了……同样的,刚开始工作的时候看到周围人写的各种report,强烈无语。这个,不仅仅是方法论的问题啊,有时候基本的逻辑都不通啊。后来曾经和若干正在读Ph.D的朋友谈及此事,感觉他们对于各种商业报告的鄙夷确实并不是无不道理的,但是仅限于理解他们的想法,毕竟除了自己手下出来的东西,其他人的东西都是不可控的,而且对所有人都要求一个很高的statistical and analytical sense完美结合,是不现实的……这个时候,才觉得自己做的最有价值的事儿,或许就是在一堆纷繁的数据里面,有一些清晰的分析策略和指标形成吧。好像学了半天经济学,最大的收获就是遇到问题不会完全的不知所措,还是知道怎么可以一层层剥开坚壳看内涵的。

千里之堤,溃于蚁穴啊。多少对于统计模型的乱用、统计结果的错误解读(前几天微博上流传着一句“很多分析师是用直觉强奸数据”),导致了后期决策的偏差。也正是因为自己接触到的都是第一手的数据,清清楚楚的可以从一行行R代码里面知道各种指标是怎么计算出来的,才可以对某些人对于结果的一厢情愿的解读、理直气壮的提出意见吧。有些事情,过分的“完美主义”是不必须的,但是统计结果和指标制定,我觉得认真还是应该是第一原则吧。

至于统计模型……我想说,看过了这么多其妙的算法啊,模型啊,其实觉得很多时候是“殊途同归”和“返璞归真”。有的时候,把握一个方向确实比多么精确的去测度一个指标更重要。在一个实际的business里面,大家关注的并不是学术界的各种指标,更多的是“好用、易用、实用”而已。像我这种有时候“完美癖”发作的,确实感到一种现实过于骨干的痛苦……但是也没有办法。毕竟你关心的,大多数人是不关心的。同样的,很多开发人员、算法设计人员关心的事儿,在我这里看来也不是那么重要……最多能理解他们,但是,亲,真的,很多事情没有你想象的那么重要的。

最后,罗嗦一句,CV毕竟是面子工程啊……亲,别乱写行不行,排版漂亮点行不行?在这个信息浩繁的时代,酒香也怕窖子深啊~

Categories
互联网产业观察 读书有感

回顾了一下IT业发展史

如果说现在IT行业的大潮流是什么,除了云计算之外,怕就是移动互联网了。从来没有一个时期像现在这样,手机、电脑、平板相互之间如此相似。所有的终端似乎都要联入互联网,才显得有生命力(好吧,我那个非智能手机啊,呵呵)。Any time, any where,网络确实改变了信息传输的效率,和生活模式。

所谓忆苦思甜,今天就回顾了一下过去一个世纪的互联网发展史,或者简单的说,一系列的公司成长史和消亡史(每一次的心潮澎湃和英雄暮年)。其实大多数耳熟能详的公司的小故事都听过,但是若是说整理起来一起看一下,还真不曾这么系统过。最近一位制造业的朋友推荐了一本《浪潮之巅》,拖了一个多月没翻,但是再不读完我这还怎么自诩“弄潮儿”啊,于是今天干脆一口气读完了。

可以说,没有什么惊喜,大都是一些熟悉的故事。但是有意思的是,作者把这些故事用自己的脉络串联起来的方式。一个个IT行业下细分的领域,一家家高处不胜寒的公司……一个个数过来,还真是蛮有意思的。我读过之后,没什么太多深入思考的地方,可能这本书还是太偏技术了,更像是一个“雾中看花”的技术翘楚写出来的切身感受。涉及到公司营运、资金管控等等所用的角度和描述方式,就和我的兴趣点有所偏离了。或许现在有些麻木了,心更想寻求一种安定和宁静了。

不过,还是很好的,静下心来看待IT业这么一波波潮来潮涌、月缺月圆故事的好机会。打发时间还是不错的,至少还是可以小小励志一下的、免得太消沉,呵呵。

Life, will be better, when shared with people who have the same interests :) 求同存异,分享各个行业的辉煌,学习自己所未曾接触的经验,总是有趣的。最近真的在感叹,海阔凭鱼跃,天高任鸟飞,却也是林子大了什么鸟都有啊!乐在探索。

Categories
我的生活状态

享受当下

昨天和一挚友聊天,主题就是:享受当下。不要抗拒什么,顺其自然的走下去。在一个还可以年轻、还可以疯狂、还可以享受的时候,毫无顾忌的去享受年轻的滋味。

有人说,踌躇是因为太害怕失去。只是,还没有失去的时候,都不懂得珍惜和享受的话,又谈何未来?如果注定要失去,我们也宁愿,在失去之前,让感情像烟花般,华美绚烂的绽放一番。总好过,从未盛开就凋零。

工作也是如此。总要做自己喜欢的事情,总要把握住自己喜欢的时间。和一群激情的人共事,和一群聪明的人一起创造价值。人生,总要给自己留点记忆,创造一些属于自己的经典。

现在,越来越不喜欢太多的计划和规划什么了,随心而至吧。最后,附上一个去年做的flash的截图,treasure before loss...是的,就算失去了,也会在回忆中温暖吧。

Snap1

Categories
事儿关经济

(线性)相关性的迷惑与数据挖掘

今天刚刚看到TED的一个视频。以前的时候总是听到TED的大名,但是一直没有怎么看。刚才的是关于统计分析的,感觉很有意思,见:http://v.163.com/movie/2011/7/L/1/M7805EO9V_M7805PEL1.html

TED可能受众是大众一点,所以演讲者更多以举例为主。这个就是以TED现有演讲为基础,来黑色幽默的展示统计分析可能带来的误导和违背常识。哈哈,一如既往熟悉的美式幽默风格呢!

里面有很多例子,比如“受欢迎的演讲者”一般头发要长一些,之类之类很简单的相关性统计。然后给出了一个终极TED演讲模板……当然有点搞笑了。不过这也让我想到,关于“相关性”和“因果关系”之间,我们应该怎么更好的结合起来。统计分析最常规的就是给出相关关系,不管是线性的还是非线性的,以试图寻找连系事物之间的线索。同样的,数据挖掘也是做的这个事儿,在一群纷繁的数据中,找出有价值的信息,往往也是两个事物之间的连系。

大多数情况下,相关性分析是符合我们直觉的,也会给接下来的业务开展带来极大的指导意义,比如那个最著名的“啤酒与尿布”。但是现在大量与我看来有些莫名其妙的统计模型的引入,尤其是计算机发展后算法实现的便利,很多人不管三七二十一就开始套用算法了。没有直觉的算法我还是觉得不靠谱,尤其是无法用经济原理来解释的人类的行为。一个算法或者统计模型分析出来的结果,只有通过演绎法下面的经济原理检验,我才觉得是可以信赖的。违法直觉的结果强行应用,怕是事得其反。

有名的例子有很多,比如最早的时候联合国做扶贫,思路很简单,就是若干统计研究发现,一个国家接受的FDI(外来直接投资)和GDP正相关,所以想当然的认为只要给非洲等贫困国家大量的资金支援,他们就能产生经济增长和发展……然后呢?一笔笔钱显然是白扔进去了。FDI水土不服的例子有的是。显然,这里的问题就是,FDI和GDP确实是有正相关关系,但不见得是因果关系,所以就算FDI扔进去也不见得GDP就会产生。一个线性估计模型出来的参数,可不是这么简单的就适用哦。这也就是计量经济学家们一直纠结的内生性问题——两个变量之间本身就是相互促进和影响的。

这也是为什么,从一个政策制定指导的角度,计量经济学会首先侧重于一个估计量的“一致性”而不是一味的追求估计精度的提高和预测的准确性,这个和金融里面的关注点差别就会蛮大了。这也是我比较欣赏计量经济学思路的一个地方。相比于大多数很fancy的统计学模型和计算机算法,计量经济学还是比较务实的希望先把握准一个方向,然后才去细细地寻找一种解决的策略。现在身在业界,更是体会到一项商业活动找准方向是多么的重要。否则,一旦大趋势改变而我们浑然不觉,那么什么算法模型都只能是一时的准确,而很快就会消亡,毕竟只是在猜而没有一个坚实的基础。

所以,从这个意义上,我一直觉得经济学看问题还是有它自己的深度和远度的,无论是演绎法之下的经济原理与分析模型,还是归纳法之下的计量经济学。从相关性到因果关系,往往还有很长的一段路要走的。走通了,自然登高望远风景无限秀丽。不过,这其中的辛苦也是当事人自知啊~

开发算法固然不容易,但是能把算法找到坚实的基础支撑和准确的应用,再进一步提出算法的优化和进化要求,更是一种考验智力和耐心的事儿。这么看,economic consultant真的是最最伤不起的职位啊!还要懂得如何深入浅出的展现结果啊!太历练人了!

Categories
事儿关经济 经济、IT观察与思考

跨学科研究之殇

今天看到木遥的一篇文章:为什么跨学科的研究项目是件残酷的事,略有感触,在此罗嗦几句。

1. 经济学大量吸收了数学家,Arrow之后更是有一系列微观理论数理化的变革,Laffont的加入对于博弈论的影响扩大也不可或缺。这些人,在当年应该都算是“跨学科”的吧,经济和数学总是走的那么近,和统计学就更不用说了。
2. 很多学科领域都在期待数学工具的变革和进步,很多学科的突破式发展也是得益于数学工具的引入。物理和数学的渊源就不用说了,生物这些年来也多多少少依赖着好多数学工具的发展。另外从某种层次上,计算机和数学是不分家的……
3. 交叉学科研究最难的是,要求一个人具备两个、或者更多领域相对专业的知识。某一个领域少了一点,都不足以支撑一个突破性研究的进展。或者应该这么说,纯知识是好学的,关键是习惯两个以上领域的思维方式,知道他们分别关心的是什么,然后找到交叉点,这是我觉得对人要求最高的。隔行如隔山,很多时候确实如此。

最后补一句,最近常用一句话,

偏见源于无知

无知请理解为“某种知识的欠缺”。举个简单的例子,一个统计调查和研究估计往往首先要考虑的问题之一就是,样本是不是selected sample。简单的说,你不能跑到东北去进行人口身高采样然后回来告诉大家这就是中国人的平均身高(而某些国际研究,限于资金人力,往往在一个国家就取一个或者几个点)。selected sample,以及我们耳熟能闻的truncted data, censored data 等等,都是样本较之于总体的缺陷,自然会造成最后估计的偏颇。这也是很多时候,为了保持无偏(一致)性,我们需要根据样本的特征加上各种假设(比如Tobit模型)进行修正,然后才能得到基于假设下面的一致估计。

这是从统计或者计量的角度说这个估计的事儿,那么扩展一点,统计的本质无非是“归纳法”(此处特指相比于演绎法),那么自然是基于已有的信息集作出对已经发生的事件的判断。如果信息集不全,正如我对“无知”一词在上面的运用,那么得出的结论必然多多少少是有所偏颇的(无偏成为了小概率事件)。从这个角度来说,跨学科研究对于研究者多领域知识的高要求,在我的理解中,是这些研究突破困难但是珍贵的最主要原因(至于是不是偏颇,我们只能说这里无偏就更加的是一种信念了,没有什么可以衡量比对的依据了)。

终归,在一个充满噪音的信息集里面,找到有效信息,是一个脑力+体力活。Ph.D在我看来,值钱的地方正是这种孜孜以求的苦干精神,怕是真的与上上课就能学来的知识、和考考试就能获得的分数或者证书没什么关系。至于木遥所说的就业问题,呃,学界容不下还有业界……不要这么看不起业界……实践也能出真知啊。从学术研究突破所需的资源来看,业界能提供给研究的资源是完全不同的,所谓换个角度看世界嘛。