Categories
事儿关经济

(线性)相关性的迷惑与数据挖掘

今天刚刚看到TED的一个视频。以前的时候总是听到TED的大名,但是一直没有怎么看。刚才的是关于统计分析的,感觉很有意思,见:http://v.163.com/movie/2011/7/L/1/M7805EO9V_M7805PEL1.html

TED可能受众是大众一点,所以演讲者更多以举例为主。这个就是以TED现有演讲为基础,来黑色幽默的展示统计分析可能带来的误导和违背常识。哈哈,一如既往熟悉的美式幽默风格呢!

里面有很多例子,比如“受欢迎的演讲者”一般头发要长一些,之类之类很简单的相关性统计。然后给出了一个终极TED演讲模板……当然有点搞笑了。不过这也让我想到,关于“相关性”和“因果关系”之间,我们应该怎么更好的结合起来。统计分析最常规的就是给出相关关系,不管是线性的还是非线性的,以试图寻找连系事物之间的线索。同样的,数据挖掘也是做的这个事儿,在一群纷繁的数据中,找出有价值的信息,往往也是两个事物之间的连系。

大多数情况下,相关性分析是符合我们直觉的,也会给接下来的业务开展带来极大的指导意义,比如那个最著名的“啤酒与尿布”。但是现在大量与我看来有些莫名其妙的统计模型的引入,尤其是计算机发展后算法实现的便利,很多人不管三七二十一就开始套用算法了。没有直觉的算法我还是觉得不靠谱,尤其是无法用经济原理来解释的人类的行为。一个算法或者统计模型分析出来的结果,只有通过演绎法下面的经济原理检验,我才觉得是可以信赖的。违法直觉的结果强行应用,怕是事得其反。

有名的例子有很多,比如最早的时候联合国做扶贫,思路很简单,就是若干统计研究发现,一个国家接受的FDI(外来直接投资)和GDP正相关,所以想当然的认为只要给非洲等贫困国家大量的资金支援,他们就能产生经济增长和发展……然后呢?一笔笔钱显然是白扔进去了。FDI水土不服的例子有的是。显然,这里的问题就是,FDI和GDP确实是有正相关关系,但不见得是因果关系,所以就算FDI扔进去也不见得GDP就会产生。一个线性估计模型出来的参数,可不是这么简单的就适用哦。这也就是计量经济学家们一直纠结的内生性问题——两个变量之间本身就是相互促进和影响的。

这也是为什么,从一个政策制定指导的角度,计量经济学会首先侧重于一个估计量的“一致性”而不是一味的追求估计精度的提高和预测的准确性,这个和金融里面的关注点差别就会蛮大了。这也是我比较欣赏计量经济学思路的一个地方。相比于大多数很fancy的统计学模型和计算机算法,计量经济学还是比较务实的希望先把握准一个方向,然后才去细细地寻找一种解决的策略。现在身在业界,更是体会到一项商业活动找准方向是多么的重要。否则,一旦大趋势改变而我们浑然不觉,那么什么算法模型都只能是一时的准确,而很快就会消亡,毕竟只是在猜而没有一个坚实的基础。

所以,从这个意义上,我一直觉得经济学看问题还是有它自己的深度和远度的,无论是演绎法之下的经济原理与分析模型,还是归纳法之下的计量经济学。从相关性到因果关系,往往还有很长的一段路要走的。走通了,自然登高望远风景无限秀丽。不过,这其中的辛苦也是当事人自知啊~

开发算法固然不容易,但是能把算法找到坚实的基础支撑和准确的应用,再进一步提出算法的优化和进化要求,更是一种考验智力和耐心的事儿。这么看,economic consultant真的是最最伤不起的职位啊!还要懂得如何深入浅出的展现结果啊!太历练人了!

3 replies on “(线性)相关性的迷惑与数据挖掘”

能够找到一个坚实的基础固然很好,但这样势必会花费不少资源,包括人力、物力、财力,而最后的结果不见得对投资者有利。所以,需要寻找投入小,产出相对较高的方式,即便是短暂的也无所谓了。

Comments are closed.