Categories
互联网产业观察 经济、IT观察与思考

那些埋伏在互联网公司的经济学家....

嗯啊,自从著名的微观经济学家Varian跑到google兼职之后(话说Varian这厮最著名的八卦,就是自己在买新彩电之前,各种搜集数据建立模型,然后经过各种最优化选择了最佳时点入手...不就是买个电视嘛,至于这么学以致用嘛~),经济学帝国主义展露出其雄心勃勃的志向——无底线的渗透到各个行业各个环节。有的披着数量分析的外衣,有的带着策略决策的高帽,总之就是各种高端各种名正言顺。然后看看他们发出的paper嘛,什么呀,还是economists这群人自己的逻辑规则。哎呀呀~

最近看AEA系列的文章,发现了两位埋伏在互联网公司的大神,Justin M.RaoDavid H. Reiley,貌似原来都在Yahoo!后来一个跑到了google一个投奔了Microsoft。然后这俩人还到处在econ期刊上面灌水,嗯嗯,小小谴责一下~你们又不评tenure神马的,干嘛总抢有限的publication资源啊(好吧其实这俩明明是过着我羡慕而暂时不可得的生活...)。

本来先看到的是这俩人发在JEP上的,关于垃圾邮件的:

Rao, Justin M., and David H. Reiley. 2012. "The Economics of Spam." Journal of Economic Perspectives, 26(3): 87–110.

然后顺藤摸下去,找到了俩人的网站(作为具有geek气质的经济学家,这俩人果然都有独立网站~),然后就看到了更多的papers:

The Good News-Bad News Effect: Asymmetric Processing of Objective Information about Yourself (local copy) (joint with David Eil AEJ Microeconomics July 2011

Here, There and Everywhere: Correlated Online Behaviors Can Lead to Overestimates of the Effects of Advertising (local copy)  (joint with Randall Lewis and David Reiley). Proceedings of World Wide Web Conference 2011 Research Papers

嗯嗯,这两篇看起来也很有意思(对他们研究NBA的那些文章表示~米有兴趣)。这三篇中,最符合我现在的迫切需求的就是最后一篇——在线行为中的相关性与互联网广告效果评估。米办法,现在整天对着各种评估,各种错综复杂让人经常抓狂。还是看看文章舒服一点。

现在开始说一下最后这篇文章。记得刚刚到eBay的时候,就有被问到,“怎么从correlation到casuality?”。当然,呃,计量注重的因果推断只是狭隘的统计意义上的因果,不过还是比correlation有着实质进步的。因果推断的方法,嗯,很多,只要解决了内生性问题,什么都好说。那么,好吧,最simple and elegant的就是随机分组实验了,因为是随机,所以分组变量一定是外生的,所以估计了一定是一致的。然后就是根植IV理念的一系列方法,然后就是对付无法观测变量的panel data方法...时序我实在是不了解,所以这里就不知道了(最悲哀的是为什么总被问到时序的问题啊,个体的数据是多么好的面板分析base啊,为什么一定要损失信息弄成一些时序指标呢?)。

回到文章。一开始作者就提到了互联网广告效果评估的一个经典“相关行为偏差”案例:

案例1: 用户行为的相关性与估计偏差

Yahoo!在首页上为某大厂商展示了其品牌广告,之后评估由其带来的相关的关于该品牌的搜索行为。没有对照组的时候,他们使用用户在campaign开始前一个星期的各种浏览行为作为控制变量,然后发现campaign带来的提升效果约在871%到1198%之间,可谓 too good to believe。

然后大家就有疑虑了,作为一个经常访问Yahoo!的用户,自然相比于那些不怎么常来的人有更高的概率看到该广告(在线广告一般定义exposure,即被展现即作为treatment),而且他们作为资深用户更有可能去搜索一些关键词。这样,就出现了这两个变量的高度正相关——搜索却不是在线广告直接引起的,而是用户本身特性决定的。然后大家就会说了,那么干脆把campaign开始前用户的搜索行为也作为一个控制变量好了。但是这个东西实在是不稳定,每天之间波动实在是太大。

简单总结一下,就是被展现过广告的用户for sure会比那些没有展现的用户更活跃,所以本身就是一个selected sample,也没有很好的控制变量可以完全的消除这里的选择性样本问题。而在采用了随机对照试验之后,最终的估计量是5.4%,也就是说实际上直接由广告带来的相关搜索只有5.4%的提升量。

然后就有人说,哦,都是同一站点的行为嘛,自然可能相关性比较强。那么不同站点之间的行为,是不是行为之间的相关性就会比较弱一些呢?然后就不会这样干扰结果了?于是,作者进行了第二个实验。

案例2:网站之间交叉行为相关性

Yahoo!在Amazon上放了一段30秒的视频广告,以推销Yahoo的一项服务。然后他们发现,在接下来的一周之内,这些看到该广告用户的中,使用Yahoo!这项服务的用户大概提升到以前的3倍!可见这个广告是非常之有效啊!

然而有意思的是,在同样的时间段之内,另一组用户看到的是是一段政治广告。作为control group,这些用户对于该服务的使用量也差不多增加了2倍——也就是说,可能是其他的一些campaign或者用户的自然增长导致了活跃用户的增加,而不是直接的源于这段视频广告。对比之后,该广告的效果只能用“微乎其微”来形容了。

所以,不同网站之间的行为可能是高度交叉相关的,不能简单的忽略这种行为相关的可能性去采用一些简单的观测评估。否则,往往估计效果会大大的偏离实际。

案例3:广告会造福竞争对手?

一个在线服务商在Yahoo!上展示了2亿次广告,但是很可惜,Yahoo!无法追踪到该广告为服务商直接带来的用户转化量。不过“幸运”的是,在这段时间,他们追踪到了该服务商的一个竞争对手的新用户注册量。于是,“不幸”的结果发生了——看到广告的当天,用户更可能去注册竞争对手的网站用户。莫非,这段广告不仅仅让投放者收益,而且也造福了竞争对手?(比如促进了消费者对于一项新服务的认知度,我们习惯称之为正面的“溢出效应”)

还好,当时Yahoo!也设置了对照组,发现其实对照组的用户在这段时间之内也有很多人去竞争对手网站注册。所以其实这种溢出效应基本为零,不用担心啦~竞争对手用户数上升可能是与此同时其他促销或者广告行为的影响,与这段广告没什么关系的。

嗯,其实这篇paper本身米有什么technical的难度,稍稍学过一点本科计量经济学的应该都能顺利的看懂,不过几个案例还是蛮有说服力的。唯一稍稍遗憾的是,这篇文章的style还是太economist taste了,不是那么的符合业界人士的思维路径...

我想在此基础之上,稍稍多说几句关于“实验设计”的事儿。随机实验很简单的,解决了很多内生性相关性问题,是一个典型的“better data + simple method = better results"的例子。同样的,很多时候如果可能,提高数据的质量而不是寻求更复杂的模型,往往是解决问题最省力的办法。这里的数据质量不仅仅是说“除噪”这些基本功,而也包括数据是不是贴近分析目的设计和搜集的。去年写了一系列的“社会网络中的实验”,一直在说一个优雅的实验设计会带来多么优雅的分析。当然很多的时候,一些客观的现实问题导致实验也只能被优化到一个特定的层次。其实一直在想的是,连续的实验该怎么设计

有的时候,因果关系不需要一次次的挖掘,实验也不需要每次都做,毕竟实验都是有成本的。如果能设计出来一系列优雅的实验,那么很多问题就可以一次性的干净利索的回答,不好么?不过既然在这里说到这些,说明日常的工作中还是存在很大改进余地的。嗯,有空间才有成长,挺好的~

p.s. 其他两篇papers也会稍后介绍~嗯嗯。

Categories
互联网产业观察

扯淡经济学

我不知道大家是怎么理解“扯淡”这个词儿的。我知道这个词儿是高三的时候整日听一个人在耳边说此词儿,实在是过于熟悉以至于印象深刻。刚刚查了一下词典,解释为:1.胡说乱道。 2.指闲扯。 3.没意思;不相干。

这里取哪个意思都可以,说的就是现在的某些“扯淡”经济学。众所周知,经济学现在分工“特别”细,所以什么词儿拿来一组合都成了“XX经济学”了。记得上半年的时候一时兴起去所有211院校经济学院的网页上搜集了一堆东西,也不禁好奇看了看各个院系的师资介绍。真的是什么经济学都有。比较流行一点的成为“网络经济学”或干脆更露骨的叫做“互联网经济学”(因为经济学研究网络可能不仅限于互联网,网络效应还涵盖供电网、水网等等)。我真的很诧异什么叫做“网络经济学”。跟互联网有关的就可以吗?那么互联网的实质到底是什么,有什么值得特别研究的?又不是管理学。


前段时间网路上有本很热的书叫做“维基经济学”,貌似是根据wiki来写的。我没有细细看过,只是一看题目就被雷到了。确实是符合出版商的要求。看看书的简介中,大致就这一段:

《维基经济学》的结论源自900万美元的研究项目,素有“数字经济之父”美誉的新经济学家唐·泰普斯科特向我们展示了个体力量的上升是如何改变商业社会的传统规则,这种利用大规模协作生产产品和提供服务的新方式,正颠覆我们对于传统知识创造模式的认识

与经济学还有点关系,下面的:

面对变化激烈的未来,企业和个人必须更有远见,掌握维基技术,拥抱维基理念,是21世纪最重要的商业素质。

则直接露骨的说出了这本书的商业目的。现在真是管理类的书籍都喜欢贴上一个“经济”的标签,弄得满世界都是“经济”热,就跟满世界都是“博弈”热一样。一堆高分孩子前赴后继的投入经济学的学习中,殊不知出来就发大财的美梦即使是在商学院也难以一一实现。

看看各种图书,还有什么热的呢?《魔鬼经济学》(恩,这是本好书),《牛奶可乐经济学》(没看过)、《媒介经济学》(??)、《卧底经济学》、《蝴蝶效应经济学》、《开车经济学》,还有贴上“博弈”标签的一堆书……看看现在经济学到底有多么“炙手可热”啊!甚至还有什么“名媛经济学”、“循环经济学”、“魔法经济学”、“生物经济学”之类吹的天花乱坠的词儿,真的是“经济学帝国主义”!

你拍攝的 未标题-1。

所以有些东西,该扔就扔吧!别闲扯淡了!

你拍攝的 未标题-2。

Categories
读书有感

浮躁的时候,开始读书吧!

前几天一直处于比较烦躁的状态,看文献看到头大,发现需要看的呈指数级增长,最后觉得还是暂时收手,沉淀一下看的这些东西再说。

今天终于想起来趁着图书馆还开门,去借一些书。也终于把放在图书馆虚拟书架(话说这东西真是好用)里面的书都借出来了。

今天借的书目是:

  • 《机会的数学》作者: 陈希孺 出版社: 清华大学出版社
    该书是院士科普书系第一辑(文末附有更多的介绍)中的一本,非常薄的册子,不过非常值得一看,不论是学概率统计之前作为直觉建立,还是之后作为理解的桥梁,都是很有价值的。我翻得很快,不到一个小时就看完了,感觉细细的品下来对概率论和数理统计一些模糊的概念更加明晰,对于统计,我感觉自己是越来越谨慎和信赖了。
    陈院士是我国著名的数理统计专家,在该书的序言中,他写道:

我们在生活中不时地要与偶然性打交道……本书的目的就是对此作一个通俗而不失科学性的讨论,主要着重于它在收集和分析数据上的应用。收集和分析数据是用实证方法研究自然和社会的基本方法,也是我们用科学的态度观察和对待世间万事万物的手段,可以说与我们的生活息息相关。

因此,写这本小书的目的,不是单纯从“工具理性”的层面着眼,而是更着重于基本知识的介绍和统计观点的培养。可以认为,对偶然性的认识,是一个现代人知识结构中应具备的成分,是一个人的人文素质的一部分。正如英国学者威尔斯所说:“统计的思维方法,就像读和写的能力一样,将来有一天会成为效率公民的必备能力”。

  • 《高等数理统计学》 作者: 陈希孺 出版社: 中国科学技术大学出版社
    这本书是作为数理统计进一步学习的材料,不过很受挫,还是没看懂。前段时间看《测度论与概率论基础》(北大程士宏版)就没看懂,现在还是很晕。看来的确缺少一些实变和泛函的知识。
    最难得的是本书还有很深的学习数学方法上的建议,正如陈院士序言中所述,数学的学习是不能急功近利的:

本书是定位是“基于测度论的数理统计学基础教科书”。内容除预备知识外,其主体是关于几种基本统计推断形式(点及区间估计,假设检验)的大小样本理论和方法,另有一章讲述线性模型的初步理论。
书中习题及提示占了近半的篇幅,从写作时间言,则占了四分之三以上。总计得题五百,若计小题,则不止千数。其中除少量选摘自有关著作外,大半属作者自创。 有时一题之设,累日始成,可以说倾注了不少心力。这样做完全是因为,多做习题,尤其是多做难题,对掌握并熟练数理统计学基本的论证方法和技巧上,有着不可替代的重要性。如果通过一个基础课学习,只是记住了若干概念,背了几个定理,而未能在这方面所长进,那就真是“入宝山而空返了”。技巧的熟练固非一日之 功,但取法乎上,仅得乎中,必须在开始学基础课时就设定了一个高目标。日后进入研究工作,克服难点的能力如何,相当一部分就取决于在这上面修为的深浅了。 同时,经验表明,在打基础的阶段因忽习题而导致素质上的缺陷,在日后不易弥补,或事倍功半。

此外,最近还在看那本经典的贝克尔的《人类行为的经济分析》,其实早在去年冬天孙曰瑶老师上课的时候就推荐这本经典的书了,但是当时一直没有细细看。五一去北京的时候在一家书店里面看到了,半价入手。薄薄的小书,但是确实是感受到不同的思维。贝克尔或许是“经济学帝国主义”的极力推动者,但是看看他的书,虽然已经有近20年的历史了,还是有非常值得一看的地方。今天只是略读了他对种族歧视、民主政治等等的分析,就感觉获益匪浅。教科书可能多多少少也涉及了这些分析,但是还是不如读原著能体会到的原汁原味的感觉。

读了一天书,和前几日看文献的感觉完全不同,广博了许多,一下子思维开阔的感觉。

话说,还把另一本科普书翻了出来,是高三的时候买的。《漫话数学》——张景中院士、任宏硕教授献给中学生的礼物(最新版),是属于“中国科普名家名作”系列的。这本书真的是非常好,当时高考前读了读觉得获益匪浅,现在又把后面关于连续性、微积分等等的知识读了读,依旧感觉如获至宝。好书真的是历久弥新,在我的书柜里面静静的躺了这么长时间,还是很有价值的。

有的时候听到一些同学感觉“现在都大学了,读科普书多丢人啊”,我觉得非常没有必要。知识是一方面,直觉和思维的培养则更多需要借助科普书来实现。所以有时间,还是多多的放松一下,看一些通俗的东西,对自己的成长和理解颇有好处。

附:院士科普书系系列所有书目

第一辑:

《院士科普书系》第一辑有:《对称与不对称》;《来自微观世界的新概念——单分子科学与技术》;《第三种科学方法——计算机时代的科学计算》;《计算机怎 样解几何题——谈谈自动推理》;《机会的数学》;《信息世界漫谈》;《从绿叶到激光光盘——颜色与化学》;《人类认识世界的帮手——虚拟现实》;《海陆空 天显神威——惯性技术纵横谈》;《21世纪的绿色交通工具》;《坐飞机去——现代民用运输航空》;《悄悄进行的破坏——金属腐蚀》;《千秋功罪话水坝》; 《九曲黄河万里沙——黄河与黄土高原》;《沉没的宝藏——盐湖资源》;《今日水世界》;《节水农业》;《动物的运动》;《菌物世界漫游》;《地球上最重要 的化学反应——光合作用》;《运筹帷幄,决胜千里——从生态控制系统工程谈起》;《梳理人、事、物的纠纷——问题分析方法》;《消除血肉之灾——创伤防 治》;《征服癌王》。

第二辑:

《人类认识世界的五个里程碑》:本书从五门基础学科(理、化、天、地、生)中,各选一种具有革命意义的学说(原子论、周期律、大爆炸宇宙论、板块结构说、进化论),进行历史的回溯和未来的展望。读者在获得知识的同时,也可以获得更多的思考和启迪。
《人造小太阳——受控惯性约束聚变》:面对将要来临的能源危机,人类必须开拓新能源。本书将带您去了解人造小太阳的世界,了解将造福于人类的核物理、核技术的研究成果。
本丛书还包括:《中子——打开原子能时代的金钥匙》、《加速器与科技创新》、《我们生活在磁的世界里——物质的磁性和应用》、《稀土元素——您身边的大家 族》、《奇异的光——激光》、《人类的灾难——核武器与核爆炸》、《变幻流动的科学——多相流体力学》、《模糊性——精确性的另一半》、《神奇的表面工 程》、《空天技术与材料科学》、《泥土中的铝——科技腾飞的使者》、《能源世界之窗》、《石油树结奇异味》、《神奇的地热》、《海底矿产》、《21世纪的 铁铝》、《数字地球与测绘》、《信息化社会的基石——计算机》、《教电脑识字——浅谈汉字识别》、《天堂的种子——热带作物》、《面对大自然的报复——防 灾与减灾》、《岩溶——奇峰异洞的世界》、《妇女保健》。

第三辑:

《光子学技术——信息化时代的支撑技术》: 本书共分10章,以光子学技术的应用为主线条,同时以相当的篇幅对光子学的发展史、光子学器件及其物理基础加以深入浅出的介绍,使读者通览全书后,对光子学技术的物理基础、科技内涵与应用发展有系统准确的了解。
《月球——人类走向深空的前哨战》: 本书内容有:月亮素描、艰难的探月历程、重返月球、建立地球村、迎接挑战等。
本套丛书还包括:《石油——人类文明社会的血液》、《工程抗震的新发展》、《核能——无穷的能源》、《材料世界的天之骄子》、《营造绚丽多彩的光世界——发光学趣谈》、《农药化学》、《贵金属——周期表中一族璀璨的元素》、《先进制造技术》、《离子的喷泉——电子回旋共振离子源》、《大地中的宝藏——实说中国的矿产资源》、《返加式卫星》、《脑的奥秘》、《黄河——我们的母亲河》、《纺织新境界——纺织新原料与纺织品应用领域新发展》、《金矿——人类最早认识和利用的矿产》。

第四辑:

本丛书共分为十四册,包括《聚变能及其未来》、《微分方程与三角测量》、《话说基因》、《现代科技与战争》、《中老年人的自我保健》、《说话的科学技术》等,供读者阅读参考。

Categories
事儿关经济

经济学家的自傲[4th week, July]

以前每周例行的总结都是关于读书的,而后就开始偏向流水帐,最近觉得还是总结一下所思比较好。正所谓,“学而不思则罔”,所以适度的思考,加上与他人的交流,则是经济学学习的一种很好的方式吧,和读书相互弥补。

可能我自己并不喜欢如这个题目一般的说法,经济学家还是大多数兢兢业业站在所有人的高度上谋求社会福利最大化的。从这种角度上来说,他们还是比较超脱的。

今天这么说,只是因为前几日聊天的时候,说到推动经济增长的核心力量的问题。从历史来看,答案似乎很简单,工业革命。新的能源和技术的大规模应用,生产效率的成百上千倍提高,直接推动了整个社会的进步。而且,英国和美国(插曲:那天看一篇日文文献,才知道,原来日文中的美国,是“米国”,汗……出口大米的国家?)的先后崛起也似乎足以印证这一点。

不过,作为经济学专业的来说,总是喜欢站在自己专业的角度来考虑问题。那日,一学长就说到,接下来在社会科学领域的创新可能会成为经济增长的新动力。这样的说法让我不禁想起了一个古老的词儿:经济学帝国主义(此处单指:经济学侵入到社会科学的各个领域,如果有可能,自然科学它也会去试图插几脚吧)。当然,我承认他说的是颇有道理的,政治体制、所有权等等的改革都会为经济发展提供可能的前进空间。但是,制度对于经济运行到底有多么重要?我始终觉得,制度只是外因,真正的生产技术的创新才是能持续发展的内因。当然,在生产技术既定的情况下,寻求制度的创新则是社会科学家们的主要任务。

从历史来看,私有制的确立的确是极大的促进了生产力的发展。或者简单的来说,就是一种私有产权的激励,避免了大锅饭的谁都不努力的弊病。而且,还需要承认的一点就是,专利制度作为创新的私有制保护,的确立极大的促进了科技创新和发明的诞生,虽然可能造就一定程度上的“垄断”,例如著名的“杜邦公司”。这个问题就取决于专利保护的年限和保护费用等等了。很多经济学家对此都有深入的论述,在此不再重复。

不过,是不是这样就可以本末倒置的说,是制度决定了经济发展水平呢?我始终还是觉得,它只是个推动因素,或者相当于一个催化剂吧。现在几乎所有的经济学分析都离不开制度,还有针对制度的“(新)制度经济学”和其中一个分支“法经济学”的炙手可热。

说到这里,想起来年初的时候和导师的一番谈话。他问我“你以后想做什么?出去读硕士还是博士?”,我说“先拿到PHD再说吧”,他接着问“你为什么要拿到PHD?”“一种追求吧。”“可是有些时候,PHD只是一种看起来很美的东西,你要明白自己要干什么,再去决定要不要读PHD。读PHD会让人变得偏执,不偏执是很难拿到PHD的”。

当时他的这席话让我颇为感慨,接下来的一段时间我也不断再跟各个年龄的PHD交流这个问题,无非就是“读完PHD不当老师可以吗?”前前后后问了很多人,从在读的、到毕业的、到工作许多年的,大多数都是很一致的答案,还是倾向于留校当老师。很显然,这样的答案让我颇感失望。或许也跟,立志于读PHD的人大都对于学术研究有着极大的热忱和兴趣有关,我前前后后问的这几个也都是颇具学术气息的。不像我,立志读PHD交杂着各种原因,而并非单纯的对于学术有着极大的热情和兴趣。

这样,经济学家的自傲也就不足为奇了。首先必须先说服自己,其次才能用自己的思想去影响别人,说服别人来信仰你。只可惜,我是做不到这点了。别人写论文都力求自圆其说,我反而是写出来结果之后会很旗帜鲜明的罗列出来文章的所有缺点,甚至可能比写论文的时候还兴致勃勃。有的时候大家都是“皇帝的新衣”,谁都不愿去说破。我就算不去说破,心里也会保留一些意见。

到这儿,又不禁想起前几日看到的一篇博文(来自:http://www.wangxiaofeng.net/?p=3530):

最近遇到一些朋友,都跟我聊罗老师的演讲报告,说很精彩,如果自己的人生像罗老师一样精彩就好了。然后我就笑了,我说如果你要是有罗老师这样的口才你的人生也一样精彩。事实上,我对罗老师的演讲报告的评价是:用精彩的语言叙述他乏味的人生。这不是我对罗老师不尊重,而是人们对罗老师进行了错误理解,忽略了演讲中虚构、夸张、戏剧成分,你被打动得分不清哪里是真哪里是假,其实挺简单,罗老师的人生经历是《三国志》,他的演讲是《三国演义》,我们在博客里遭践他就是吴宇森的《赤壁》。

再比如,老六每次写“饭局六件事儿”,都有虚构,至少语言上会夸张,目的是为了让你把一次乏味的饭局经过看得有趣一点,这叫文学,不叫新闻或者历史,如果在叙述上不夸张一点,你会感兴趣吗?但是过了200年,当有人研究老罗或者老六,一定会把他们现在的记录当成史料,认定罗老师的人生是精彩的,认定老六每次参加饭局都是生动有趣的,其实丫每次饭局在酒精的作用下都前后判若六人。他写的饭局记录基本上都是在失忆状态下经历的,在清醒状态创作的,但我们喜欢看的原因是“创作”,“创作”一旦让你产生快感你就真假不分了,读着读着你就觉得身临其境地感受那次饭局了。看,这么简单的事情都可以让人造成认识上的偏差,那些更大的事件呢?

有的时候,人还是喜欢包装自己吧。譬如,我初中的时候,总喜欢把自己标榜成“多愁善感”,直到有一天一个同学跟我说“每次看到你都有一种忧郁的气质”,我突然间觉得不能再这样了。然后就把自己弄得很开朗,现在则喜欢标榜“淡泊明志,宁静致远”,一副不食人间烟火与世无争的超然状态。可是,究竟是不是这样呢?我也不知道,大概只是一种愿景吧。

恐怕,喜欢包装、个性偏执,都是经济学家自傲的缘由吧。