Categories
事儿关经济 经济、IT观察与思考

社会实验的特殊性(二)

还真没想到这一题目居然被我一直写下来了,虽然已然时隔一月。今天想说的是偏社会实验设计的东西,起承于“费歇尔(Fisher)三原则”。当然,关于Fisher,建议大家读一下《女士品茶 (The Lady Testing Tea)》这本书,会得到更多的八卦故事以及他的思想的来源。

Fisher三原则是指实验设计的:1)随机化原则 2)重复原则 3)区组化原则。

我就沿用计量的术语了,第一个随机化原则大家都比较熟悉了,就是保证进行实验的时候实验组和对照组(如为对照实验)的同质性,也就是避免我们在将实验对象分组的时候分组不均、造成由样本偏差带来的实验对照结果偏差。从社会实验来看,实验的对象必然是人,那么人作为一个主动行为和决策的个体,自然会有非常强烈的个体之间的差异,这也是我在[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7]里面一直在说的问题。随机化最常见的就是lottery,比如彩票或者抽签的形式决定哪些人可以进入 treatment group、哪些人留作对照。这种方式最常见于小额贷款实验的实践中,因为他们想看一下有机会得到贷款(优惠)的人是否和其他人日后的生活有了显著的差异,从而证明小额贷款的意义。这种实验方法从技术和随机性原则来说并没有什么问题,但是在实践中却经常被口诛笔伐,毕竟有些优惠政策很吸引人、这样子的随机抽取而不是按需分配多少有点不道德的味道。关于疫苗、书籍等牵涉到一代人命运的分配更是如此,这样子随机实验的“机会成本”着实太高,谁也无力大规模承担。众所周知,由于种种原因印度成为了小额贷款等microcredit的优选试验田,因此有了这么一张经典的图片……

因此随机性原则说起来容易,但是很多时候还是有实践困难的,要不也不用RDD(Regression Discontinuity Design)等稍显复杂和依赖于更强假设的模型了(当然,某些时候RDD的假设也不是那么强……这个各种经典的实验分析方法日后另论)。

再说第二条“重复原则”,就是说实验可以被重复、然后结论经得起重复试验的检验。这种要求最常见于理科实验中,比如物理、生物、化学等。刚看到一条新闻说是“欧洲研究人员发现了难以解释的中微子超光速现象",其中有这么一句“参与实验的瑞士伯尔尼大学的安东尼奥·伊拉蒂塔托说,他和同事被这一结果震惊了,他们随后反复观测到这个现象1.6万次,并仔细考虑了实验中其他各种因素的影响,认为这个观测结果站得住脚,于是决定将其公开”。我们姑且不论这个发现的物理意义和新闻的正确性,假设新闻是正确的,那么重复实验1.6万次就足以在大样本下排除实验每一次的一些随机性和测量误差,更充分和有说服力的证明一个实验结论的可靠性。这一条原则在社会实验中相对较难满足,因为每一次都是“独立重复”实验隐含着对于实验对象也要保持一模一样的要求。然而我们很难找到两群完全相同的人去做实验,比如我们今年找大一的学生做一次心理暗示教育,明年再做这个东西下一批学生多多少少就会有一些不同,三五年之后这种不同便更明显了。对同一群人做重复实验显然不可取,在经历了一次 treatment 之后实验个体已然发生了改变,不可能回到原来的起点重新做重复实验了。这也是社会实验面临的严格性挑战之一。最简单的,很多人说做博弈论的实验,觉得只需要一组两个人参与,然而看看实验经济学的paper有多少前后实验设计并无二致的实验进行之后结果迥异。这也是实验经济学就算是 lab experiment、不算 field experiment 也会出现各种争议的缘故。毕竟,实验的对象在变化,这样的重复实验并不是完全的“独立重复实验”。从社会实验来看,更多的只是能说一次结果,然后找一群我们认为关键的特征相似的人群做下一次实验。实验的不可完全重复性某种程度上决定了我们对于一次实验结果的internal validity和external validity的难以确保性,也就是说这种试点实验结果在多大程度上可以复制到所有我们感兴趣的人群中,还需心里预先打个折扣。我觉得,两次实验结果一致那真的有点纯属巧合了,不一致还是正常的。这也是很多时候我对于实验估计出来的marginal effect并不是特别的关心,只看一下数量级便是了,更关心的则是显著性。一般说来,几次相差不大的实验若是都能保证我们预期结论的显著成立,那么便可以考虑大规模的复制了。这也是社会实验和自然科学所无法比拟的严格性。

Fisher提出的最后一个原则是“区组化原则”,指的是“消除试验过程中的系统误差对试验结果的影响而遵守的一条规律”。这里要说的两个概念就是“随机误差”和“系统误差”,都和“测不准原则”有关系。随机误差大致是说我们不知道的随机因素造成的每一次实验结果的客观误差存在性,而对应的解决策略就是上面说到的“独立重复实验”。“系统误差”则是更多的在结果出来之后我们对其进行测量的时候带来的误差,比如最经典的测长度可能会由于尺子本身刻度不准的问题带来系统误差,即最简单的“仪器误差”。当然,系统误差还包括我们本身实验设计所依赖的理论要求和实验条件的差别,比如“热学实验中没有考虑散热所导致的热量损失,伏安法测电阻时没有考虑电表内阻对实验结果的影响等”,称之为“理论误差”。当然,“个人误差”也是客观存在的,指的是“由于观测者个人感官和运动器官的反应或习惯不同而产生的误差,它因人而异,并与观测者当时的精神状态有关”。区组化原则更多的就是为了消除/减轻系统误差的影响、提高实验的精确度而建立的一条原则。区组化的做法无外乎先把实验对象按照某种特征分组,使各组之内尽量同质,然后在此基础上每组分别随机抽样。这里多少有点和“分层抽样”的思想契合。从我的感觉来说,社会实验中我们对于这一点的强调相对少一些,除非是比如性别决定了实验方式需要区别(比如对丈夫和妻子要采取不用的treatment),要不大多数情况下常见的还是完全随机抽样。我的感觉来说,区组化原则更多的在于treatment的制定是不是完全相同,如果我们需要依赖于某种特质来制定treatment,那么分组再随机抽样就显得更为必要。当然我这里的理解可能和fisher的意思有一些偏差,但是实际中我们确实是要考虑,比如对于教育水平极低的人(甚至不识字)采用亲笔签名的方式来确认某项事情并不一定反映了其真实意愿,不见得有最传统的“按手印”来的有效。这里我更多的是想说区组化原则除了可以作为分层抽样的基础,更多的是一种制定实验手段的时候可以考虑一些实施中的实际困难、灵活应变,以保证在某些区组中不至于出现大规模的系统误差影响实验最终的平均意义上的效果。这更多的是一种事前的警觉性体现,事后往往修正就比较难了,实验不尽如人意也就在所难免了。

OK,今天就简单的回顾一下Fisher的实验设计三原则,感觉这些东西在最基础的统计学中都学过,估计大家也都有把这些作为“重点”概念熟记应付考试的经历,其实刚才很多名词我搜了一下出来的都是XX试题详解。其实“随机误差”“系统误差”这些东西说起来容易,先不论很多人只是为了考试,大多数人学这些概念思想的时候很少有同时确实在动手做实验的,哪怕是物理化学实验,更少有思考实验设计“为什么这样”的机会,很多东西大家都约定俗成了。而到了社会实验,面临的问题就更复杂和多元化,对这三原则自然也会有一些不同的解读和理解,大概也是走出象牙塔之后的一种进步吧。实践出真知,比证明多少次plim a= a或者E(u|x)=0都更有切身体验。除了数学公式的所确保的一致性,在一个实验的实践过程中确实有太多的环节可以导致结果的偏差了,尤其是系统误差。如果对这些可能的因素没有警觉,那么实验的设计缺陷可能进一步导致实验结论的稳健性下降。所以,设计实验的过程更多本身就是一种学习和积累经验的过程,然后这种积累到了一定程度,就会影响到理论的发展和进步吧。科学不就是这么一点点艰难的前进的?虽然经济学或者其他社会科学还称不上实验科学,但是这些思想的引入和考量我觉得还是有益无害的。

Categories
事儿关经济

Academic Day

昨天从杭州回来,顿时感到如释重负,事情做完了,自然心里舒畅一些。

然后,今天列了列这周需要做的事情,终于没有什么说是要几点几点必须做完的了。然后长吁一口气,想起来需要改的paper。其实论文这东西,写不写纯属一种对于学术偏执的热情。我还是很喜欢看到一点点contribution to existing literature的,先不管这个contribution有多大。于是写起来,也便多了几分感觉。顿时感慨,大多是时候做事情的热情真的只是单纯的来源于喜欢和责任感啊——尤其是后者,若不是责任感在那里,真的感觉很多事情都没有必要做。与此同时,发觉自己的完美主义倾向越来越严重,不喜欢把一个不负责任的东西交给别人,那样怎么对得起放在第二行的自己的名字呢?虽然很多时候也没有放自己的名字在那里了……

今天,除了接接电话之外,定位于一个academic day,更多的是指让自己的思维回归学术化一点,用经济的角度重新审视过去几周的事情,再就是准备一下接下来的两个conference。

话说,这次R会议要讲的题目终于定下来了, Experiments in Social Networks and Analysis in R,有点绕口是不是?中文更绕口,我都不知道怎么翻译好了。田野实验的方法在实证研究中的应用越来越广,而随机实验的方法尤其对社会网络这种本来内生性问题很严重的领域提供了一个寻找一些答案的方法。今年上半年的时候前后在这个基础上做了一个实验设计、还有后续的一篇更完整的论文,现在又开始真正的run一些实验,所以觉得这个题目至少有一点话可说。只是不知道多少人会感兴趣了。话说,我应该先把《社会实验的特殊性》一系列感想文章一点点写出来,果然实践出真知啊。

R会议上海会场在一点点前进,不时看着慢慢变长的报名列表心里就有一种莫名其妙的幸福感 ^_^ 能见到很多志同道合的人自然是一件格外开心的事情。现在真的是每天都离不开R了,各种该用R的、其实并不一定非用R的事儿都交给R来处理了,工具依赖啊。发现RStudio这个“编辑器”很好用,很好用……然后又在下Revolutoin了,不知道会不会有新的惊喜。

还有很多东西值得一点点期待吧。心情有张、有落也算正常,不过总体上还是一种满积极的状态,毕竟没有白来的丰收,相信今日的辛苦付出都是会换来在未来的某个时刻回眸时的会心一笑。算作一种小小的希望吧。

Categories
事儿关经济

社会实验的特殊性(一)

“实验经济学”这个名词儿可能很多人都觉得蛮耳熟的了,此外社会实验无论是在学术界还是业界都蛮热的。鼓捣出来个什么东西,总要做个实验有个对照才好说效果什么的是吧~

最近一直在想,社会实验这个东西到底有什么特殊性?可能和自然实验相比,最大的不同之处就是反馈回来的是依据人的决策而表现出来的行为,而不像自然实验那样是有既定的物理化学反应过程的。从这个角度而言,我们研究人们的行为的时候,便多了一些更高层次的考量——毕竟人是有思维能力的高等动物,简单的生物学上的“反射”行为可能并不足以完全的解释人们行为的多样性。这也是我为什么觉得economics特别有意思的缘故吧:从工具的角度,我们大量的应用数学、统计学、物理学乃至生物学的成果;从思想的角度,我们在将历史学、心理学、社会学、法学、地理学、人类学、政治学等等融会贯通。有的时候真的觉得越来越难以对economics下一个定义,很多的时候很多交叉的领域让什么定义都觉得没有立足之地。前面说的,大致可以对应为数理经济学、计量经济学、金融物理学、神经经济学、经济历史学、经济心理学、经济社会学(social economics)、法经济学、经济地理学、政治经济学(特指研究政治问题的经济学分支)等等。每一个领域都可以拎出来无数的论文,所以有的时候真的很难以说经济学是一门什么样的学科了。简而言之,研究人类的行为吧,毕竟我们还主要关注在“人”和“行为”上,虽然这个定义也难免让人觉得日渐模糊了。

正因为经济学的社会科学的本质,所以在借鉴自然科学的方法的时候自然也理应格外小心。比如做实验,怎么选取实验组和对照组就是一门很大的学问:人和人不可能完全相同,怎么选两个组之间还是会有一些差异是不可控的。生物学可以用(同卵)双胞胎来做实验,但是这个对于需要田野实验的经济学来说显然是可望而不可及了。此外,继承这个问题,当我们去检验社会实验的结果的时候,又应该有什么样的补救之策呢?

原来看经济学的论文很简单,大家一个“随机分组”就涵盖了所有的东西。反正是随机的嘛,什么都是外生的。但真正到自己手里做实验的时候,却还是有蛮多疑虑的。怎么随机、算是随机?从自然科学的角度,最理想的状况就是实验组和对照组在实验之前“一模一样”。比如我用同一块铁、同样的盐,当然这个总会有一点误差,但足够小以至于可以忽略不计了。可是,当我们在社会实验中,还可以这么天真的假设人和人之间的差异性不大,故而从大数定律来讲只要样本足够大、我们总会得到一个一致的ATE(average treatment effect)估计吗?我心中还是难免有一些疑虑。这种疑虑一是来自于对极端事件发生的担忧(比如随机抽取之后两组出现显著差别,并且可能会直接影响结果,这样结果就多含了一个我们难以剥离开来的分组因素),另一个则是对于ATE的不够细致的感觉。ATE固然好看,但是我们制定策略的时候还是更多的希望适用于每个个体,到底在个体层面这个treatment effect有什么样的差异呢?这个问题并不是毫没有意义,也不是完全没有办法回答的。

在这种种的疑虑中,就多少觉得这个社会实验还是要慎之又慎才能期待一个比较稳健的结果。所以,从我的角度,事先的分组要慎之又慎,事后的结果检验也要因情况选择最合适的方法。两者结合起来或许会控制的比较好一点吧。

刚刚发现手头没有 Mostly Harmless Econometrics 这本书,觉得还是有一本时常翻翻比较好,就从Amazon痛下血本买了……痛是痛在运费,倒不是书费,呵呵,买书总是不心疼的。后悔当年没有直接带回来。还有顺便买了Motta那本书~话说,上次kindle返修之后居然给我留下了25刀的gift card,不用白不用,意外的惊喜啊~amazon真是慷慨,相比而言国内的那个卓越亚马逊真是让人失望,先买的书架后买的书,书都到了书架还没发货!唉!

Categories
互联网产业观察

怎能寄希望于不染青莲

我还是没忍住,索性说说对于百度最近被各种攻击的一些看法吧。

前段时间打开电视,习惯性的就调到CCTV 2 去了。我说过了,我还是经常看CCTV的,毕竟上面很多信息还是有用的。在我已然被隔离了一年不知道这些热播的电视剧说的是什么的今日,打开电视调到CCTV或许并不是一个坏选择。

然后很意外的看了很久对于Baidu的批判。虽然稍早的时候在网上看到大家说起这个事儿,但是还是抵不上自己看一遍来的深刻。貌似,前些年的时候也有过类似的报道。怎么,旧闻重提?

实话说,我原来是不用百度的,因为觉得上面的信息太繁杂,一个个辨认起来太麻烦,有的时候还是google更符合我的习惯。这就像开始的时候我是有点不信任淘宝的,因为淘宝上各种劣质品我未能幸免的被忽悠了好几次。但是现在我还是整天上淘宝买东西。为什么呢?因为淘宝商城确实是有很多好东西的,再说现在不是还有一个东西叫做“退货保险”么?怕什么!

说到百度,对我来说和早年的淘宝并无二致。这都是中国的互联网大环境在那里摆着的结果。你能指望一个企业来承担所有的社会责任吗?总是期望企业来“出淤泥而不染、濯清涟而不妖”,这真的公平么?为什么没人去要求工商部门更细致的监管?如果这些甄别信息的成本强加在一个企业身上,那么我们能期望的唯一结果就是一个更没有效率的搜索引擎。人家总是要养活自己的是不是?羊毛总得有出处。在经济学上,有个词儿大家可能并不陌生:市场失灵 (market failure)。说的就是一种类似于“劣币驱逐良币”的过程——当甄别信息的成本太高的时候,我们只能漠视劣质品充斥市场。

我还说说淘宝吧。记得当年第一篇正儿八经写的论文立题便立于机制设计,说的是淘宝各种交易机制为什么、在什么程度上有效。当年淘宝商城刚刚推出来,最大的区别就是进入门槛的提高,所以我写起论文来也很容易,一个机制设计上的改变就足以把劣质品驱逐市场。经过时间的检验,我感觉淘宝商城的认可度确实越来越高,也给予了一大批诚信的中小企业低成本进入市场并进行产品推广的平台。譬如我很钟爱的衬衣品牌:鲁泰。原来的时候要买鲁泰好不方便,要去实体店。去了跟营业员一聊来的都是回头客,因为鲁泰主要是做出口的,国内市场广告偏少,很多人都不知道这东西。再者它价位也确实有点偏高,很多人可能不觉得衬衣值这么多钱。最近发现鲁泰出了一个低端品牌(虽然不是我最钟爱的格蕾芬……)挂在网上卖,物美价廉啊!一下子很爽的买了很多很多东西,家里人也都很满意。所以,我对淘宝商城总是蛮欣赏的,这样的一个平台确实造福了很多中小企业和消费者。

现在回头看当年的那篇论文虽然稍嫌幼稚,不过分析问题的出发点我还是觉得蛮好的——首先要给定的是一个噪音很大的市场,各种优质品、劣质品混杂,有效的信号传递实现起来就比较困难了。所以,合理的机制设计是在保证信号的一定传递水平下、最小化社会成本的机制。这里的社会成本更多的是一种和市场上信息是完全的理想状况相比下、效率损失上的概念。毕竟,制度都是有成本的,这个成本则需要用一个机会成本的概念来衡量和审视。

回到百度。作为一个企业,它的价值在哪里呢?当然,这里立足于我自己的价值观,一个企业的价值取决于其创造的社会价值。简而言之,我们可以接受完全没有百度的日子吗?(假设没有其他的完美替代品)。如果有比百度更有效率的企业,那么显然的它早就占据市场了(剔除各种制度因素和进入壁垒)。百度固然不完美,但是它竞价排名本身的机制并不见得有错。

刚刚看到周涛的一篇文章:《科技日报》关于搜索信息规范与公平性的采访。他的大多数观点我还是赞同的,虽然从技术/算法角度出发的意味很强。我先承认一点很无耻的,相比于公平,经济学更关心效率。当然在效率的定义上我们可以考虑进去公平的因素,这里可能就牵扯到一个社会效用函数的问题:你怎么来衡量一个社会的效用?简言之,你觉得什么是公平的?行为经济学从个体的角度出发有一些涉及“公平 (fairness)”的模型,大致的做法就是在个体的效用函数里面引入一个项来考虑别人行为给自己带来的效用,有点从“外部性”角度出发的感觉。那么对于百度,如果我们假设它是一个理性的经济人(经济个体),那么当外界对它的质疑真正影响到它的收益的时候,自然它会选择一些新的做法。所以从我的角度来说,开发新技术或者更简单的实施新算法(譬如周涛提出的个性化搜索)固然重要,但是这样的运营的成功大概是远远离不开一个合理的机制设计的。

最简单的机制设计理念从我的角度而言可以追寻到科斯定理,在这里或许可以阐释成不同的“物权/收益所得权”分配会造成最终结果的效率不同。这里这么说科斯定理,前提的假设自然是交易成本是存在的。在一个噪音很大的市场,交易成本非但不能被忽视、而且要足够的重视起来。现在我们所面对的互联网市场或许就是这么一个噪音很大的市场。可用的信号诸如信誉也不再一如既往的被人认可(譬如蒙牛的三聚氰胺、山西陈醋的勾兑),新入市场的个体更加是难以建立自己的信誉。那么,怎么能期望不通过机制设计就获得一个相对而言有效率的市场结果呢?

我并不是一味的鼓吹机制设计的重要性。从百度来说,如果他换算法,自然就是对市场机制的一种改变。只是除了算法的改变,还有一些其他的机制设计可能可以被实行。只是百度面临的问题不像淘宝那么直接(后者背后有具体的实物交易),所以我一时还真不知道什么样的机制对于百度这种状况是最佳的、又有什么措施是实践中可以实施的。有些东西或许真的要等待实验结果。

最后,还是说一句,别一味的指责百度了,这不是它一个人的错……就像我们去买地摊货,回来发现不好用或干脆不能用,你会第二天去找城管说立马给我取消这个夜市吗?毕竟还是有需求有供给的。如果大家都不是抱着占小便宜的心理(譬如那些搜索“信用卡套现”的,自己就明知违法吧?),那么很多时候提高警惕是可以防止被骗的。还有,新闻报道为了吸引大家眼球往往是非常有选择性的采取个例。极端个例当然是值得我们警示的,但也不用一拍子拍死所有人哈!在这个混乱的市场环境中,消费者本身也应该有自己的判断力和理智,不要太贪小便宜。天下怎么会有那么多免费馅饼呢是不是?我原来就很喜欢看淘宝社区的防骗技巧,蛮受用的!毕竟人多力量大,群众的眼睛是雪亮的!

Categories
网络新发现

As a designer...

在巴塞罗那的时候因为周围的一票人都是学经济学的,所以跟他们没啥好显摆的,除了做中国菜让他们解解馋之外。然后我们不断的要做presentation,所以彼此间必然经常交流present的技巧。除了言语技巧之外,用来做展示的slides自然也是着重点之一。呃,可能久而久之,我就养成了一些小小的洁癖,比如用惯了latex之后看到word的排版就觉得难看,用惯了PS和illustrator之后再也无法忍受乱糟糟的图文混排……这一小洁癖集中体现在我的硕士毕业论文里。本科的时候毕业论文没什么可以修饰的,版式是规定的。可是硕士毕业论文要求有封皮,学校又没有统一的,所以我就很happy的自己design了一个。只可惜时间比较紧,没有好好的想想应该怎么更好的设计,不过凑活着也吸引了很多人的眼球,所谓“先图夺人”吧。这个坏习惯体现于我经常用"as a designer"做借口要求返工某些东西,弄得我的合作者有时候只能吹胡子瞪眼的等着我完工。哈哈,可见实在是没什么可卖的了,以前短短的设计师经历也可以拿出来不时晒晒,脸皮真的是越来越厚了。

学术论文插图都是有既定的规范的,能发挥的空间不多。但是离开学术界、在业界,这个对 visualization 的要求就越来越高了,除了“达意”之外,还要讲究美观,明显的科学与艺术的结合。在巴塞的时候有个朋友是设计师,就整天给我灌输各种设计理念,可惜我别的没记住只记住了一个词儿,infographic,大意是基于信息产生的美好图形。从这个角度来说,它和一般意义上的统计图形还不一样,除了要求更好的展示数据之外,将多个图形放在一起展示的时候还要有一个合理的设计布局。

当时他还推荐给我一个站点,今天又翻出来看了看,还是有耳目一新的感觉:www.informationisbeautiful.net。嗯,然后一路找下去,还有几个值得订阅的,除了常年关注的flowingdata.com之外,还有新起之秀Visual.ly,以及www.coolinfographics.comdailyinfographic.com。习惯阅读器的省心了,这些都有RSS支援,直接扔到Google reader里面就好啦。

好吧,最后还是随手贴两张图吧:

Peak Breakup Times according to Facebook

Who's Suing Whom in the Telecom's Trade

希望我这小小的洁癖不会影响以后的工作啊~学会妥协先。好吧,该学学怎么做PPT 了……

[另:在落园完成两个域名完全同步之前,暂时停止更新一段时间。这样两边各发一遍实在是太折腾了。目前的计划至少是弄成MySQL同步,当然也可以考虑生成静态html文件把loyhome.com完全作为一个镜像站。我还没想好那个可实施性更高,但是现在这样确实对于搜索引擎收录是有影响的。趁这几天努力施工咯!]