Categories
事儿关经济

我(对于统计方法)的一些偏见

Yihui写篇文章居然链到了我那篇吐槽文,瞬间亚历山大...我就是随便说说而已,一定要文责自负么?

其实我经常会有些自我的偏见在那里,而且有时候明明知道这些偏见的存在不好,还是很难说服自己改变它们。

比如,最深的偏见就是我对于计量经济学,我实在无法从根本上接受计量经济学属于经济学的这个事实...我对于它从统计观点出发搞的“因果推断”始终加上一个引号。

再比如,计量经济学内,我偏见最深的就是时间序列分析,我实在无法从根本上接受时间序列分析居然可以做因果推断,这东西更多的是预测的意味嘛,和机器学习的观点很像...

再再比如,机器学习各种模型中,我最不能接受的就是那些完全没有假设检验的...这东西至少也得能算个方差什么的才让人觉得靠谱些吧?

再再再比如,没有假设简单的那些机器学习模型中,我最最最最无法认同的就是最粗暴的把各种模型结果混合起来,用类似bootstrap的方法求得置信区间之类...这简直是就毫无办法之下的粗暴猜测嘛。

然后最后一个问题,施老师说,这个某种程度上反映了“群体智慧”。呃,好吧,就算每个模型都提取了一定的信息量,然后这么混合起来就是万灵药了?怎么听怎么像中药一锅煮的感觉,而不是西药那么配方分明...

其实我还讨厌的是“数据科学家”这个说法...努力的把science的帽子往自己脑袋上套,是大家都要遵循“科学发展观”的缘故么?就像我原来特别讨厌有人争论“经济学是硬科学还是软科学”一样,一定要沾上科学的边么?是为了好申请经费么?

如果科学,定义为消除我们对于世界的不确定性,那么无论是经济学还是统计学,不用争议多少,自然都是科学。如果科学,定义为探寻事物发展的因果规律,那么怕不是建立在演绎法逻辑之上的方法,都算不上科学了。我想说的只是,定义可能并不重要,如果定义是狭隘的,那么必然排除了一些有用的方法;如果定义是广阔的,那么必然包容了一些没用的方法。这东西又不是非黑即白的...

我只能说,科学在我这里的定义相对狭隘,宁缺勿滥,所以我的偏见有这么多...偏见越多,观点越偏颇,经常有过两年自己都不知道自己当年为什么那么幼稚和狭隘的感觉。所以大家一来请见谅落园文章的局限性,二来欢迎帮我突破局限性,用鲜明的观点和生动的例子来说服我——不仅仅是一些口头上关于定义之类的争论。

------------

照例跑题:确实如yihui所说,我的blog文章太多了,找起来难免不方便。尤其是对于不是常年订阅的读者来说。所以我决定对自己的blog主题动动手术了,瀑布流什么的最近蛮流行的,挺好的打算学习一下。

Categories
互联网产业观察 经济、IT观察与思考

那些埋伏在互联网公司的经济学家....

嗯啊,自从著名的微观经济学家Varian跑到google兼职之后(话说Varian这厮最著名的八卦,就是自己在买新彩电之前,各种搜集数据建立模型,然后经过各种最优化选择了最佳时点入手...不就是买个电视嘛,至于这么学以致用嘛~),经济学帝国主义展露出其雄心勃勃的志向——无底线的渗透到各个行业各个环节。有的披着数量分析的外衣,有的带着策略决策的高帽,总之就是各种高端各种名正言顺。然后看看他们发出的paper嘛,什么呀,还是economists这群人自己的逻辑规则。哎呀呀~

最近看AEA系列的文章,发现了两位埋伏在互联网公司的大神,Justin M.RaoDavid H. Reiley,貌似原来都在Yahoo!后来一个跑到了google一个投奔了Microsoft。然后这俩人还到处在econ期刊上面灌水,嗯嗯,小小谴责一下~你们又不评tenure神马的,干嘛总抢有限的publication资源啊(好吧其实这俩明明是过着我羡慕而暂时不可得的生活...)。

本来先看到的是这俩人发在JEP上的,关于垃圾邮件的:

Rao, Justin M., and David H. Reiley. 2012. "The Economics of Spam." Journal of Economic Perspectives, 26(3): 87–110.

然后顺藤摸下去,找到了俩人的网站(作为具有geek气质的经济学家,这俩人果然都有独立网站~),然后就看到了更多的papers:

The Good News-Bad News Effect: Asymmetric Processing of Objective Information about Yourself (local copy) (joint with David Eil AEJ Microeconomics July 2011

Here, There and Everywhere: Correlated Online Behaviors Can Lead to Overestimates of the Effects of Advertising (local copy)  (joint with Randall Lewis and David Reiley). Proceedings of World Wide Web Conference 2011 Research Papers

嗯嗯,这两篇看起来也很有意思(对他们研究NBA的那些文章表示~米有兴趣)。这三篇中,最符合我现在的迫切需求的就是最后一篇——在线行为中的相关性与互联网广告效果评估。米办法,现在整天对着各种评估,各种错综复杂让人经常抓狂。还是看看文章舒服一点。

现在开始说一下最后这篇文章。记得刚刚到eBay的时候,就有被问到,“怎么从correlation到casuality?”。当然,呃,计量注重的因果推断只是狭隘的统计意义上的因果,不过还是比correlation有着实质进步的。因果推断的方法,嗯,很多,只要解决了内生性问题,什么都好说。那么,好吧,最simple and elegant的就是随机分组实验了,因为是随机,所以分组变量一定是外生的,所以估计了一定是一致的。然后就是根植IV理念的一系列方法,然后就是对付无法观测变量的panel data方法...时序我实在是不了解,所以这里就不知道了(最悲哀的是为什么总被问到时序的问题啊,个体的数据是多么好的面板分析base啊,为什么一定要损失信息弄成一些时序指标呢?)。

回到文章。一开始作者就提到了互联网广告效果评估的一个经典“相关行为偏差”案例:

案例1: 用户行为的相关性与估计偏差

Yahoo!在首页上为某大厂商展示了其品牌广告,之后评估由其带来的相关的关于该品牌的搜索行为。没有对照组的时候,他们使用用户在campaign开始前一个星期的各种浏览行为作为控制变量,然后发现campaign带来的提升效果约在871%到1198%之间,可谓 too good to believe。

然后大家就有疑虑了,作为一个经常访问Yahoo!的用户,自然相比于那些不怎么常来的人有更高的概率看到该广告(在线广告一般定义exposure,即被展现即作为treatment),而且他们作为资深用户更有可能去搜索一些关键词。这样,就出现了这两个变量的高度正相关——搜索却不是在线广告直接引起的,而是用户本身特性决定的。然后大家就会说了,那么干脆把campaign开始前用户的搜索行为也作为一个控制变量好了。但是这个东西实在是不稳定,每天之间波动实在是太大。

简单总结一下,就是被展现过广告的用户for sure会比那些没有展现的用户更活跃,所以本身就是一个selected sample,也没有很好的控制变量可以完全的消除这里的选择性样本问题。而在采用了随机对照试验之后,最终的估计量是5.4%,也就是说实际上直接由广告带来的相关搜索只有5.4%的提升量。

然后就有人说,哦,都是同一站点的行为嘛,自然可能相关性比较强。那么不同站点之间的行为,是不是行为之间的相关性就会比较弱一些呢?然后就不会这样干扰结果了?于是,作者进行了第二个实验。

案例2:网站之间交叉行为相关性

Yahoo!在Amazon上放了一段30秒的视频广告,以推销Yahoo的一项服务。然后他们发现,在接下来的一周之内,这些看到该广告用户的中,使用Yahoo!这项服务的用户大概提升到以前的3倍!可见这个广告是非常之有效啊!

然而有意思的是,在同样的时间段之内,另一组用户看到的是是一段政治广告。作为control group,这些用户对于该服务的使用量也差不多增加了2倍——也就是说,可能是其他的一些campaign或者用户的自然增长导致了活跃用户的增加,而不是直接的源于这段视频广告。对比之后,该广告的效果只能用“微乎其微”来形容了。

所以,不同网站之间的行为可能是高度交叉相关的,不能简单的忽略这种行为相关的可能性去采用一些简单的观测评估。否则,往往估计效果会大大的偏离实际。

案例3:广告会造福竞争对手?

一个在线服务商在Yahoo!上展示了2亿次广告,但是很可惜,Yahoo!无法追踪到该广告为服务商直接带来的用户转化量。不过“幸运”的是,在这段时间,他们追踪到了该服务商的一个竞争对手的新用户注册量。于是,“不幸”的结果发生了——看到广告的当天,用户更可能去注册竞争对手的网站用户。莫非,这段广告不仅仅让投放者收益,而且也造福了竞争对手?(比如促进了消费者对于一项新服务的认知度,我们习惯称之为正面的“溢出效应”)

还好,当时Yahoo!也设置了对照组,发现其实对照组的用户在这段时间之内也有很多人去竞争对手网站注册。所以其实这种溢出效应基本为零,不用担心啦~竞争对手用户数上升可能是与此同时其他促销或者广告行为的影响,与这段广告没什么关系的。

嗯,其实这篇paper本身米有什么technical的难度,稍稍学过一点本科计量经济学的应该都能顺利的看懂,不过几个案例还是蛮有说服力的。唯一稍稍遗憾的是,这篇文章的style还是太economist taste了,不是那么的符合业界人士的思维路径...

我想在此基础之上,稍稍多说几句关于“实验设计”的事儿。随机实验很简单的,解决了很多内生性相关性问题,是一个典型的“better data + simple method = better results"的例子。同样的,很多时候如果可能,提高数据的质量而不是寻求更复杂的模型,往往是解决问题最省力的办法。这里的数据质量不仅仅是说“除噪”这些基本功,而也包括数据是不是贴近分析目的设计和搜集的。去年写了一系列的“社会网络中的实验”,一直在说一个优雅的实验设计会带来多么优雅的分析。当然很多的时候,一些客观的现实问题导致实验也只能被优化到一个特定的层次。其实一直在想的是,连续的实验该怎么设计

有的时候,因果关系不需要一次次的挖掘,实验也不需要每次都做,毕竟实验都是有成本的。如果能设计出来一系列优雅的实验,那么很多问题就可以一次性的干净利索的回答,不好么?不过既然在这里说到这些,说明日常的工作中还是存在很大改进余地的。嗯,有空间才有成长,挺好的~

p.s. 其他两篇papers也会稍后介绍~嗯嗯。

Categories
事儿关经济

文化差异,实验科学~

感觉自己好就不说“文化差异”这个词儿了,有的时候毕竟只是个体差异没有必要非归根结底到文化上,不公平。可是有件事儿除了文化差异我实在想不出来别的词儿来解释了,那就是abortion,即中文的“堕胎”。

这学期在听labor economics,而其后半部分正是关于family economics的,所以我们就整体热火朝天的讨论堕胎等诸多事宜。我感觉(希望不是太离谱),在中国堕胎其实是很普遍很容易的,依稀记得原来在教室上自习的时候都能不时受到各种“无痛人流”的小广告卡,一打开报纸也都是类似的广告,可见这个产业有多么发达。所以我一直不觉得堕胎是件多么大不了的事儿,不过是无知少女付出的代价而已。没想到在这点上,西方反而比我们保守。这里面有宗教的原因,觉得堕胎是谋杀生命,尤其是在美国;还有健康的考虑,医生只在特定的某几个月对孕妇实施堕胎手术(西班牙当地的情况)。结果一讨论起堕胎,就看到周围同学的脸色煞然间严肃起来,只有我若无其事的夸夸其谈,然后还很天真的问“这在美国算个大事儿么?”,预期到同学们很无奈的回答我“要知道这东西在美国是一个极其敏感的话题”。哈哈,有点以此为乐的感觉。同样的还有避孕套这个东西,据说米国有些人是不用的,出于的是宗教的原因。想想国内这东西的承认度好像蛮高的,没听说啥宗教的考虑,也没啥传统文化的约束。说到堕胎,还想说一下中国的性解放……感觉上,中国在这个问题上特别矛盾,一方面是传统家族文化施加的压力下各种保守,以及有点极端的“处女情结”泛滥;另一面又是性教育的缺失,尤其是对于年轻少女们的保护远远不够,导致很多人根本意识不到堕胎的危害,只是一味的不肯承担后果。我想知道的是,如果她们知道“堕胎三次以上就会习惯性流产以至终身不孕”,那么还会这么伤害自己的身体吗?性解放如果只是行动意识上的解放,而不是教育上的解放,这恐怕会有点悲剧的色彩。某种程度上我还比较幸运,生物比别人学的多一些,所以从科学的层面了解的多一些;却也每每看到听到各种花季少女的故事,不禁感到遗憾和悲伤。

插一句很悲惨的事儿,最近development在讲国际贸易、生产力之类的东西,然后这老师好像格外偏爱中国似的,篇篇文章都以中国为例子。可怜我对这东西一点知觉都没有,上课的时候听的云里雾里的,问问题也问不出来,回答问题也没话可说,好像这里的“China”我不曾呆过似的,一点都没有熟悉的感觉。真的是上课倍感悲凉啊,看来我的宏观和国际经济学基础真的是差到一定程度了,连别人为什么研究TFP之类的东西都没有直觉,嗯……

然后突然想起来曾几何时看到过这么一句话,忘了是谁写的以及在哪里看到的了,作者很悲伤的感慨“我认识的很多做理论做得好的,做着做着就转计量了”,然后一片悲摧的神情几乎跃然纸上。我原来也是有点多多少少偏向modelling而不是empirical的,现在却多少改变了一些想法,实证的很多估计还是能给人带来很多直觉的。如果实证研究做得好的话,对于理论的贡献也是不可低估的。况且,计量还有计量理论本身是不是?那些天才相当于半个统计学家呢!原作者的理由大致是计量好出文章,所以很多人迫于生存压力就转行了。我就在想,计量某种程度上是好出文章,但是现在大家都玩到这个程度了,实证方面的经济学越来越有实验科学的倾向了,难道实验科学好出文章?没有那么简单吧。

最近也算自愿、也算无可奈何的要在一周内做两个research proposals,一个是关于sexual education的,大致是想看看如果通过社会网络进行性教育,会不会比传统的课堂教育效果更好,毕竟这东西这么敏感是不是;另一个是marriage market的,大致是整合一些心理学方面对于情侣配对的研究然后放在经济学里面,争取在 partner matching阶段做出一点有意义的解释。没办法,这俩东西都是for family economics的,所以逃不开这些话题。不过还算幸运,是跟两个group一起做,我的实际工作就少了很多,更多的是提提idea然后有人去写下来成正式的文章,嗯啊。某种程度上的轻松。关于sexual education那个,显然是要做实验了。然后我最近一直在跟同伴们强调的就是“如果我们在experimental design层面做的好一点,那么后面的计量分析会轻松许多”,这是在我突然间发现他们在research proposal的大纲上酣然列下了probit model之后惊出的一身冷汗。还没设计好实验呢,就开始考虑计量模型和那些fancy的方法了,晕。虽说实验不是万能的,但是我们总是可以尽力做的更理想一点,控制的更好一点,实在不能控制的再用identification strategy去弥补嘛!毕竟一旦到了计量上,就是一个“效率(efficiency)和一致性(consistency)的平衡”问题了。我是宁愿选择前期多做一点,后面可以让结果用相对简单的模型也能估计的很有说服力。

说到一致性,在我脑中往往的联系就是“统计上的因果关系”。计量的一大目的就是做"causal effect"估计,中文自然就是“因果推断”……不知为什么每次这么翻译的时候都小小的犹豫一下,觉得这四个字重若泰山。说具体一点,其实是统计上的因果推断。这个idea大概来源于生物实验,最有名的自然是孟德尔的豌豆基因的实验,想必大家高中生物课上都学过。这里不重复实验的细节了,想说的是那个实验提供了对于染色体、基因工作规律的直觉,后面科学家才能更进一步的挖掘其中的原因。这是一个很典型的统计推断做出巨大贡献的例子。然后计量上,尤其是在田野实验中,我们也跟科学家似的弄个实验组(treatment group)再弄个对照组(control group),然后控制一下随机分布就可以说是因果关系了(实验设计理想的话)?当然关于这个问题的争论还很多,一大批判来源于structural那边,大致就是说你只知道结果可能是这样,但是你不知道为什么会是这样,所以这实验能不能重复(internal validity),以及推广到其他情形有多大效果(external validity),都是未知的。当然,这个也得看你到底想得到什么了。对于政策制定者来说,很多时候并不需要知道这玩意儿到底为什么工作,只要知道这个政策能工作就好了。最简单的例子,我们作为一般电脑用户,大多数人并不知道电脑为什么会工作,不知道CPU是怎么处理0101这些二进制东西的,只要我能用Photoshop修个图、word排个文件就行了。所以有的时候,我对reduced form也不是那么的反感,有点实用主义的味道——看你想要什么了。

最后还有一点点想说的,就是赚钱和经济学的事儿。labor economics里面很关心教育回报的问题,其中就有很多人研究过各个大学专业与毕业后工资水平的问题。如果市场的选择是理性的话,那么从现在大学录取时候的分数线就可以看出,那些专业前景相对较好。当然,经济学首当其冲。不过“经济学”这个词儿看起来太过美妙,大到可以“经世济国”,最不济也可以养家糊口,所以很多家长就抱着美好的愿望毅然决然的把孩子送到经济学专业里面来了。其实本科的时候还好,相比于其他纯理科,经济学和现实应用的距离稍稍近一点,换句话说就是和市场脱轨的不是那么厉害。但是一旦到了学术那一面,其实啥子学科都是一样的,学术永远是和赚钱不是那么直接相关的。不知道这是一种科学家的清高,还是学术界和市场的本质目标不同。但是经济学依旧那么热……一个被“曲解”的绝佳例子就是Laffont的《激励理论》,明明是一本很技术性的委托代理模型的教科书,就是配上了这么一个模棱两可的名字,于是就被某些管理学MBA课程之类的拿去当作“员工激励”之类的东西去讲了……当然我不知道那些人是怎么演绎着这东西的,毕竟确实是有CEO等代理问题可以通俗化的解释,不过无论如何总是感觉怪怪的是不是?话说回来,相比于其他学科的不着边际,经济学还是稍稍好一点点的——我是说本科毕业生找工作的时候。所以,选专业的时候选经济学或许真的是市场理智选择的结果……

Categories
事儿关经济

强力工具、路径依赖与独立思考[10.6更新]

现在越接受专业的经济学训练,尤其是很多工具性的训练(特别是数学工具),导致了强烈的思维上的路径依赖。这样的结果就是,看问题、分析问题越来越片面,角度越来越单一,难以从全局的高度去统筹考虑。

不得不说,数学学好了,会觉得这个工具实在是太强大了。像金融资产定价理论中著名的“马科维茨边界”从数学上看仅仅是个二阶距,还有拉姆齐使用动态规划解释存款和税收(参见:[cref %e4%b8%ad%e5%9b%bd%e7%9a%84%e7%bb%8f%e6%b5%8e%e3%80%81%e7%bb%8f%e6%b5%8e%e5%ad%a6%e5%92%8c%e7%bb%8f%e6%b5%8e%e5%ad%a6%e5%ae%b6]),很多很多简单的数学应用都对经济学的发展起了重要的推动作用。但是这样一来,强力的工具容易让我们忘记了经济学本源的思考。这就是非常麻烦的事儿。

现在越来越感觉到自己思维的片面性。自从读完了拉丰的《激励理论》之后,一说到一个问题,我条件反射的就会先去检验激励是不是出问题了。比如现在大学生教育体制,我考虑问题的角度都是怎么去激励学生,此时背后默认的假设就是学生都是好学的,只是制度有了问题。这样一来,无疑把这个问题片面化了,毕竟人和人的差异还是蛮大的,并不是每个人都以追求自我价值的实现为终身目标。我讨厌分数评价这个体制,每每看到那些一心上自习、只是为了从90提高到99分的孩子,都会感到悲哀,觉得他们忽略了人生太 多的美好。但是“子非鱼,焉知鱼之乐”?我也不能强求每个人都在课余时间去扩充知识面,去体味社会的美好。我喜欢那些涉猎广泛的人,觉得把自己囚禁在某一学科是一种莫大的悲哀(参见:[cref %e5%b0%8f%e8%ae%ae%e8%b7%a8%e5%ad%a6%e7%a7%91%e6%95%99%e8%82%b2]),但是忽略了他们在其中体味到的我们旁观者难以感知的乐趣。

数学工具和成熟的经济学分析工具的强大,让我们在反复的训练之中固化了那些假设。比如经济学里对于理性经济人的假设,我觉得很多时候都不愿意去接受心理学对于人类行为的一些解释,毕竟这样子触一发而动全身。但是更严重的是,数理训练永远比经济学思维训练来的容易得多,至少我是这么感触的。而且数理方法是个捷径——从功利的发表论文来看。所以,一批又一批的年轻学者前赴后继的去追寻数理上的东西,计量模型越来越复杂,数学推导越来越抽象高深,用一己之力筑起了 “业余爱好者”和"专业学者"之间的高墙。

有的时候我们经常打趣而地说“经济学的现实解释力越来越差只是因为我们的假定和现实有距离”,但是大家 知道假定和现实有距离之后做的并不是研究怎么放松假定或者重新假定,而是怎么继续在这个假定上找到更形式完美的数学结果,然后掩耳盗铃的说服自己说“虽然假定和现实有差距,最后的结果可能也会偏差不远吧”。这就比较可怕了,很多由此实施的经济决策反而适得其反。

越来越多的假定固化,越来越多的路径依赖,使得我们自由思考的余地越来越小。自然科学是建立在物质世界基础上的,一切的想法都可以在实验室中得到证实或者证伪。但是社会科学,却没有这么优良的实验场,故而只能通过经验主义——即以过去来推断未来,用统计学来推断因果关系(参见拙作:[cref %e7%bb%9f%e8%ae%a1%e5%ad%a6%e5%92%8c%e8%ae%a1%e9%87%8f%e7%bb%8f%e6%b5%8e%e5%ad%a6%e7%9a%84%e7%a5%9e%e5%a5%87%ef%bc%9f] )。这不是经济学家的无知,而是无奈。

我们现在学习的主流经济学有着完美的,或者说成熟的数学分析工具,但是他的思考本源无疑是建立在自由市场经济上的。“看不见的手”理论将市场描述成一个完美 的、神奇的自动运转机器,就算放松假定提出“垄断”等市场结构,也是不够的。我只是在想,一年又一年的接收着这样的训练,怎么能够保持我们大脑中对于经济 学本源的思考,怎么能够跳出路径依赖和思维固化的框框,站在更高的高度上,一览众山小?今天晚上去上课,零零散散的教室里面只来了十几个人,却是难得的和老师交流的好时机。余东华老师在我看来是一个思维比较开阔的老师,跟他说这个问题,他也只是在一再的感慨“确实能把国外的经济学应用并创新的人很少”,却没有得到我想要的答案——怎么在学习主流经济学的时候保持应有的独立思考。

我很迷惑,学的数学越多,感到经济学技术层面的学习越容易,越迷惑。一步步看自己的manuscripts, 越来越感觉到自己思维的拘束,缺乏高度、难以顾全大局。一边是知道数学对于经济学成长的重要性,所以格外奋进的学习数学;一边是越来越囚禁在分析工具里 面,跳不出来思维的陷阱和框框。这对于经济学这种高度依赖对于经济社会感悟力的社会科学,实在是非常的麻烦的。数理技术的应用符合了现在学术发展的潮流, 所以备受追捧,或者说是生存必须。但是我却不希望在这样的潮流中,丢失了自己的思考。“赶热潮的人,那多得很。甘心坐冷板凳的人,却不多。[cref %e6%88%91%e4%b8%8d%e7%9f%a5%e9%81%93%e2%80%a6%e2%80%a6]”季羡林先生的话一再的回映在我的脑海里面,深刻的警醒着我。但是,虽有这般意识,却不知道如何静下心来,如何沉淀下来。

也许这就是年轻的弊端。思维太简单、易浮躁。但是,时不我待,如何才能平衡?
也许,路漫漫其修远兮,唯有上下而求索。

[Update:2009.10.6] 延伸阅读:《工具化对经济学有利还是有弊?》,来自聂辉华的博客