落园 – Page 71 – 来者皆客

雨雾飞扬

天晴总是不久的，南方多少要和阴雨濛濛连在一起。于是，上海便又被稀稀落落的雨水覆盖了。

有的时候在感慨，上海这座城市，太缺乏绿色了。到处都是水泥钢筋的现代感，偶尔有些绿色也是被高高的栅栏围在里面，走在路上只能无奈的窥视。公园是有的，但是好少。或许不公平，但这个时候我总是在怀念巴塞罗那的绿茵。尤其是在学校大大的Mac机房+书吧里面，向窗外望去一片绿树灿烂的感觉。

窗外的天气阴沉，心里也就阴阴沉沉的。从成都回来之后，开始不停的看论文、看论文，一是感觉上几个月没有好好的看论文，陌生了；二是也想知道现在大家都在关注一些什么。或许看论文也越来越挑剔了，总是在试图找一下文章中是不是有unique的观点和新的想法，而很多文章都是一如既往的没营养。最后，或许还想保持一点数学的sense吧，免得日后连个公式推导都不会了，那就太凄惨了。

有的时候，也在感慨没有时间再去那么细细的逛博物馆了。不知道为什么，无论上海博物馆还是四川博物馆，都让我有一种“苍老”的感觉。记得巴塞的博物馆都似乎很年轻的。

Tags mac, 上海, 下雨, 公园, 博物馆, 图书馆, 巴塞罗那, 数学, 绿茵, 论文

事儿关经济

底线

Post author By Liyun
Post date October 26, 2011
2 Comments on 底线

有的时候怀疑自己是不是还有一点点底线，很多事情越来越习惯于容忍和接受。前几天在slides中还在意气昂扬的讲随机分组的重要性云云，现在就开始各种妥协了。毕竟，不可能拿学术界的标准来衡量一切的事情，哪怕这个标准再基本不过、可谓学术论文必须遵守的底线。

想想其实也不足为奇。新闻报道到处都是可以拿来当作GRE AW论文素材的东西，经不住最基本的逻辑批判，那么还谈什么其他的商业报告？当所有的人都在商业报告里面搅混水的时候，默默遵守规则恐怕只是一种一厢情愿的清高了。有的时候，必然的，底线也就是一降、再降。不管心里多么痛苦、多么无奈。

一个不讲究逻辑和科学性的大环境。

Tags 业界, 商业报告, 学术界, 学术论文, 底线, 科学性, 逻辑

互联网产业观察经济、IT观察与思考

不一样的亚马逊和Amazon

我这篇文章倒不是想给Amazon做什么宣传，而只是借机说一下最近的一些最简单的购物经历，顺便感慨一下制度、诚信的缺失。

可能在国内被各种卖家欺骗惯了，尤其是在淘宝早年的时候，购物一般都是额外的小心的。只是前几天还是不小心上了一次当。要做学历认证嘛，要翻译件嘛，还不能自己翻译，就找了一家很近的翻译公司做这个事情，价格也不便宜，但是想着事情那么多还是花钱买时间吧，于是就爽快的付了翻译费。然后翻译件拿到了，跑到认证地点去，人家却说这个翻译件不符合要求^#%#。无奈啊，只能又掏钱去做一次翻译，哗哗的人民币流出去还是觉得心疼的，毕竟自己赚的钱知道赚钱的辛苦之处啊。而后自然不甘心，去找第一家翻译公司，百般推卸责任，后来直接粗鲁的视而不见。我也没有太多的时间跟他们耗着，于是315打个电话，又想到当时是用的信用卡所以也找到了信用卡发卡行，毕竟国外的信用卡消费还都是有保障的，可以在服务不到位、商家诚信有问题的时候通过银行交涉退款什么的。

315自然是两边打个电话说了一遍，然后就一副事不关己高高挂起，把皮球踢给其他部门。呃，也罢，本来也没指着消费者权益被他们保护。信用卡发卡行自然是态度好的多，一路绿灯帮我调单之类的，但是最后也很无奈，通过银联的交易他们也没有办法退款什么的，只能按照我的投诉做一个不良记录，但商家还是建行那边的，他们也只能反映给银联。这个，也罢了，维权成本这么高的情况下我也犯不着发什么律师信之类的。权当花钱买教训了。

也许是在欧洲太习惯了人们之间默认的诚信，没有什么怀疑的。同时，这几天同样发生在我身上的另一件事则让我觉得实在是太过于鲜明的对比了。8月份的时候在Amazon买了两本英文书，当时怕丢选的还是稍贵一点的运输方式，本来说是预计9月底能寄到，结果现在都还没有收到。忍不住，就给Amazon发了个Email，看看能不能有什么音信，至少能给我个包裹号码之类的跟踪一下嘛。结果很快Amazon就给我回邮件了，还主动的退还了25刀的运费到我的信用卡里面！信中各种抱歉、还说一个月之后再没有收到就可以帮我重新寄或者退款之类的。我只是昨天忍不住小小的抱怨一下嘛，连电话都懒的打，没想到态度居然这么好！

其实倒也不意外，联想到7月份的时候换新Kindle的百般顺利，当时就对Amazon刮目相看。当我爸妈看到我几个电话就很快的拿到一个全新的kindle的时候，那种惊讶啊！是啊，在国内买个东西要是想退货，那难免和销售人员口水交涉一番。哪有Amazon这种顾客为上的服务态度。

除了态度之外，背后更多的是一些诚信问题。还是说美国好了，一系列的诚信体制让每个人、公司都知道违反诚信的高昂代价。信用卡的核心是信用，而不是国内理解的“透支”功能，否则不过是一张简单的贷记卡而已。其实我对招商银行的印象蛮好的，信用卡一直用的很舒服，但是客服也跟我很无奈的承认在国内信用卡机制的不健全和跟国外的差距，我们也只能容忍和谅解。我只是百无聊赖的抱怨了一句，信用卡的信用评分什么的对我们持卡人有这么全面严格的要求，却对商户没什么要求，真的是不公平啊！

联想到最近淘宝商城热热闹闹的“起义”活动，我就觉得真的是不能不涉及诚信体制的问题了。这东西，本科的第一篇论文就论及与此，没想到现在还在这么热热闹闹的上演。我从来都是支持淘宝提高进入门槛的，这才有利于过滤掉一些竞争力不足、打诚信擦边球的商家（虽然相比于完美市场会有效率损失，但这正是信息不对称下我们为信息付出的成本）。很多人不敢去淘宝买东西，我就说一句很简单的，去淘宝商城嘛！至少，不会有什么太多的假货。当然，商城本身的其他问题就不多说了，也难怪最近这么大力的整合凡客等垂直B2C网站。现在，淘宝已经拿自己的顾客资源来卖钱了，可见这么多年的市场培育还是有价值的。

只是，太多太多事情折射出来的都是背后的诚信体制的缺失：人们习惯了有空子就钻、有便宜不占白不占。如果说中国经济增长未来有什么大的阻力，我觉得诚信体制可以算是一个。良好的诚信体制有利于市场资源科学合理的流动，而诚信体制的缺失只会让这个市场越来越“柠檬”，资源的配置被扭曲、买卖双方的交易成本被大幅增加。虽然诚信体制对于越小的经济活动越关键，但是不积小流、无以成江河，底层微观经济活动诚信的缺失，必然可期宏观层面的更多问题。

至于为什么我说“亚马逊”不是Amazon，大家可以搜搜最近卓越亚马逊的新闻，貌似也有诚信危机啊！果然，什么国际公司到了中国都是难免“常在河边走，哪有不湿鞋”？

不过，至于华尔街，那就另当别论吧。少数聪明人认为自己可以玩转地球，自然有童话破灭的时候。

Tags amazon, kindle, 交易成本, 信用, 信用卡, 消协, 消费者维权, 淘宝, 淘宝商城, 翻译, 诚信体制, 购物, 资源配置, 退款, 透支

事儿关经济经济、IT观察与思考

社会实验的特殊性（三）

在上一篇[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7%ef%bc%88%e4%ba%8c%ef%bc%89]里面回顾了费歇尔的实验设计三原则之后，那么归根结底，我们为什么要做实验？

从一个纯经济学的角度来看，社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候（说到底还是各种内生性问题），采取的一种主动出击寻求答案的方式。故而，实验之前我们一般是有一个基本的思路和方向的，然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言，社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。

说一下从我个人的感觉上的最大的在业界和在学术界的不同，可能就是data上。在学术界，难得会有非常好的data，所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的，比如我们研究几十年前的事情，自然当时没有电脑等东西可以完善的记录所有的事情；有些是数据本身的性质决定的，比如宏观里面常用的gdp等东西，中国的数据是1978年之后才有的，而且一般都是年度数据，更受限于国民统计汇总的层级汇报，自然会有一些测量偏差；有些是业界有数据，但是没法得到，这里就牵扯到一些隐私等法律权益、或者数据接口API等开放的幅度的问题；还有些是知道数据在哪里、也可以得到，但是成本太高，比如个人层面的数据，除了全民普查外很难有全覆盖的数据，一般只是小规模样本；最后的就是信息并不是直接以数字的方式记录的，比如twitter上面的用户微博记录，因此需要借助文本挖掘等手段进一步深究。

业界主要提供的就是第三类，大量的个人用户的数据，比如淘宝上各种买卖双方交易的数据。现在淘宝的交易量真的是非常大，而且每笔交易都是真实的现金往来的（我们不考虑非法的洗钱状况），其实背后对应的就是一个真实的微观交易的集合。但是这个交易数据怎么用？最简单的，我们可以看价格，对于同质品之间竞争已然白热化的，已然相差无几，那么价格几乎就等同于scanner price，可以用来衡量物价的波动。当然，网络交易有不同于实体交易的地方，比如受限于运输成本和采购的规模效应，肯定会和超市里的价格有所区别。另一方面，网络上的价格信息流动非常充分，越来越接近于理想中的完全竞争市场对于信息的要求，所以多少也让人兴奋。

另外一个有趣的数据可能就是微博，因为其实质上是一种“短平快”的信息传播渠道，会把信息通过简单的几个信息源极快的扩散到整个网络中去（所谓的influencer model）。所以现在很多人炒得很热的微博营销也是背后有着深刻的渊源的。但是同样的，信息传输成本降低的背后就是噪音的增加，因此对于微博的信息分析起来除了文本挖掘技术实现之外，就是怎么去在大量的噪音数据中寻找到有用的信息。从这个角度而言，就是在进行任何文本挖掘或者信息提取之前，是不是有一个主导的思路去明确的知道需要挖掘的信息。业界很多时候不是数据太少了，而是太多了，以至于大家根本不知道这些数据可以怎么用，所以data mining成为了救命稻草，一窝蜂的上去看看能不能挖到金矿。从我的角度看，每一个data mining算法背后必然是有一种主导的思想来支撑的，比如决策树，不过是分类统计最优化路径的感觉，这样的直觉还是蛮强的。所有数据分析的任务无外乎两个字：降维，怎么在一个多维的好烦的数据海中找到自己最感兴趣的数据，可能是几个变量之间的关系，可能是一个综合指标的创建。最简单的，GDP就是对于国民生产消费活动的降维衡量指标，所以他既然降维了自然有损失，能够多么真切的反应经济活动的现实就必然要打个折扣。

经济学里面常用的“降维”的方法就是回归，无论回归在统计学或者其他学科里面被批判的多么体无完肤，但是回归最大的好处在我看来就是最容易融入经济学直觉。在[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]里面我曾经提到一些最新的高维数据降维的算法，然而算法本身必然是有直觉甚至是（经济）理论来支撑的。当数据挖掘方法被应用在一个经济活动或者经济问题的时候，如果完全脱离了经济直觉和经济思维衍生的分析方法，我觉得未免有点太过于高傲了。有的时候，如果分析思路足够敏锐，那么基于这样思路的各种算法的出来的结果可能是殊途同归。正所谓“万变不离其宗”，这也是我觉得很多data mining的方法应该和经济学、商科的思维更好的融合在一起的缘故。就像挖矿，我们除了要有先进的挖掘机以外，事前的各种勘探和经验思路还是有非常大的价值的，至少可以降低找到金矿位置的成本、尤其是时间成本。这也是我觉得经济学在业界的应用天地断然不仅仅限于和金融相关的那些而已的缘故。

另外，如果“降维”说的广义一点，就是科学的目标。可能不同的人对科学有不同的定义，我除了喜欢一种“概率”角度的定义之外，刚看到一种定义也是蛮受启发的，

The object of science is the discovery of relations.., of which the complex may be deduced from the simple. John Pringle Nichol, 1840

然而，说到底，经济直觉总要来源于实践经验，只要经济学还是定位于“研究人类行为活动的科学”。实践中信息不足的时候，信息是制约的瓶颈，因此我们要借助更多的数学建模工具来力求完美精细的刻画现有的数据构成的轮廓。反之，如果数据是可选择的，那么更多的精力就应该放在如何去“选择”数据上。我认为，实验最大的好处就是数据完全是由实验设计阶段决定的，实验设计的好数据自然会更好的告诉我们所关心的答案。

忘了是哪位大牛在Handbook of Econometrics里面写的了，大意是“与其寻求更好的估计方法，不如寻找更高质量的数据”，言下之意就是在数据可以被“设计”而获得的情况下，我们可以把精力更多的放在实验设计而不是估计模型的选择上。我并不是一个纯粹的reduced form鼓吹者，相反，我是更欣赏structural model后面的经济学思维的。因此，在实验的方法被付诸实践之前，我更希望更多的按照一种经济学model的模式去考量这些问题，去更精巧的让实验告诉我们想知道的答案。除了社会实验的特殊性考量之外，必然的，我们没有任何理由抛弃现有的经济理论、尤其是微观经济理论去完全随意的“检查”几个变量之间的实验上的因果关系。且不论efficiency，社会实验的对象为参与经济活动的人、这一特质决定了我们在设计实验的时候便要充分利用现有对于人类行为的认识成果，更好的一步步设计实验的流程——可能不只是一次实验的流程，更多的是一环扣一环的一个个实验如何按部就班进行下去。一个动态的实验设计会更好的考量实验设计者对于经济学的理解，也是社会实验较之于费歇尔三原则下的自然科学实验、要求更高的方面之一。

事儿关经济经济、IT观察与思考

社会实验的特殊性（二）

Post author By Liyun
Post date September 23, 2011

还真没想到这一题目居然被我一直写下来了，虽然已然时隔一月。今天想说的是偏社会实验设计的东西，起承于“费歇尔(Fisher)三原则”。当然，关于Fisher，建议大家读一下《女士品茶 (The Lady Testing Tea)》这本书，会得到更多的八卦故事以及他的思想的来源。

Fisher三原则是指实验设计的：1）随机化原则 2）重复原则 3）区组化原则。

我就沿用计量的术语了，第一个随机化原则大家都比较熟悉了，就是保证进行实验的时候实验组和对照组（如为对照实验）的同质性，也就是避免我们在将实验对象分组的时候分组不均、造成由样本偏差带来的实验对照结果偏差。从社会实验来看，实验的对象必然是人，那么人作为一个主动行为和决策的个体，自然会有非常强烈的个体之间的差异，这也是我在[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7]里面一直在说的问题。随机化最常见的就是lottery，比如彩票或者抽签的形式决定哪些人可以进入 treatment group、哪些人留作对照。这种方式最常见于小额贷款实验的实践中，因为他们想看一下有机会得到贷款（优惠）的人是否和其他人日后的生活有了显著的差异，从而证明小额贷款的意义。这种实验方法从技术和随机性原则来说并没有什么问题，但是在实践中却经常被口诛笔伐，毕竟有些优惠政策很吸引人、这样子的随机抽取而不是按需分配多少有点不道德的味道。关于疫苗、书籍等牵涉到一代人命运的分配更是如此，这样子随机实验的“机会成本”着实太高，谁也无力大规模承担。众所周知，由于种种原因印度成为了小额贷款等microcredit的优选试验田，因此有了这么一张经典的图片……

因此随机性原则说起来容易，但是很多时候还是有实践困难的，要不也不用RDD（Regression Discontinuity Design）等稍显复杂和依赖于更强假设的模型了（当然，某些时候RDD的假设也不是那么强……这个各种经典的实验分析方法日后另论）。

再说第二条“重复原则”，就是说实验可以被重复、然后结论经得起重复试验的检验。这种要求最常见于理科实验中，比如物理、生物、化学等。刚看到一条新闻说是“欧洲研究人员发现了难以解释的中微子超光速现象"，其中有这么一句“参与实验的瑞士伯尔尼大学的安东尼奥·伊拉蒂塔托说，他和同事被这一结果震惊了，他们随后反复观测到这个现象1.6万次，并仔细考虑了实验中其他各种因素的影响，认为这个观测结果站得住脚，于是决定将其公开”。我们姑且不论这个发现的物理意义和新闻的正确性，假设新闻是正确的，那么重复实验1.6万次就足以在大样本下排除实验每一次的一些随机性和测量误差，更充分和有说服力的证明一个实验结论的可靠性。这一条原则在社会实验中相对较难满足，因为每一次都是“独立重复”实验隐含着对于实验对象也要保持一模一样的要求。然而我们很难找到两群完全相同的人去做实验，比如我们今年找大一的学生做一次心理暗示教育，明年再做这个东西下一批学生多多少少就会有一些不同，三五年之后这种不同便更明显了。对同一群人做重复实验显然不可取，在经历了一次 treatment 之后实验个体已然发生了改变，不可能回到原来的起点重新做重复实验了。这也是社会实验面临的严格性挑战之一。最简单的，很多人说做博弈论的实验，觉得只需要一组两个人参与，然而看看实验经济学的paper有多少前后实验设计并无二致的实验进行之后结果迥异。这也是实验经济学就算是 lab experiment、不算 field experiment 也会出现各种争议的缘故。毕竟，实验的对象在变化，这样的重复实验并不是完全的“独立重复实验”。从社会实验来看，更多的只是能说一次结果，然后找一群我们认为关键的特征相似的人群做下一次实验。实验的不可完全重复性某种程度上决定了我们对于一次实验结果的internal validity和external validity的难以确保性，也就是说这种试点实验结果在多大程度上可以复制到所有我们感兴趣的人群中，还需心里预先打个折扣。我觉得，两次实验结果一致那真的有点纯属巧合了，不一致还是正常的。这也是很多时候我对于实验估计出来的marginal effect并不是特别的关心，只看一下数量级便是了，更关心的则是显著性。一般说来，几次相差不大的实验若是都能保证我们预期结论的显著成立，那么便可以考虑大规模的复制了。这也是社会实验和自然科学所无法比拟的严格性。

Fisher提出的最后一个原则是“区组化原则”，指的是“消除试验过程中的系统误差对试验结果的影响而遵守的一条规律”。这里要说的两个概念就是“随机误差”和“系统误差”，都和“测不准原则”有关系。随机误差大致是说我们不知道的随机因素造成的每一次实验结果的客观误差存在性，而对应的解决策略就是上面说到的“独立重复实验”。“系统误差”则是更多的在结果出来之后我们对其进行测量的时候带来的误差，比如最经典的测长度可能会由于尺子本身刻度不准的问题带来系统误差，即最简单的“仪器误差”。当然，系统误差还包括我们本身实验设计所依赖的理论要求和实验条件的差别，比如“热学实验中没有考虑散热所导致的热量损失，伏安法测电阻时没有考虑电表内阻对实验结果的影响等”，称之为“理论误差”。当然，“个人误差”也是客观存在的，指的是“由于观测者个人感官和运动器官的反应或习惯不同而产生的误差，它因人而异，并与观测者当时的精神状态有关”。区组化原则更多的就是为了消除/减轻系统误差的影响、提高实验的精确度而建立的一条原则。区组化的做法无外乎先把实验对象按照某种特征分组，使各组之内尽量同质，然后在此基础上每组分别随机抽样。这里多少有点和“分层抽样”的思想契合。从我的感觉来说，社会实验中我们对于这一点的强调相对少一些，除非是比如性别决定了实验方式需要区别（比如对丈夫和妻子要采取不用的treatment），要不大多数情况下常见的还是完全随机抽样。我的感觉来说，区组化原则更多的在于treatment的制定是不是完全相同，如果我们需要依赖于某种特质来制定treatment，那么分组再随机抽样就显得更为必要。当然我这里的理解可能和fisher的意思有一些偏差，但是实际中我们确实是要考虑，比如对于教育水平极低的人（甚至不识字）采用亲笔签名的方式来确认某项事情并不一定反映了其真实意愿，不见得有最传统的“按手印”来的有效。这里我更多的是想说区组化原则除了可以作为分层抽样的基础，更多的是一种制定实验手段的时候可以考虑一些实施中的实际困难、灵活应变，以保证在某些区组中不至于出现大规模的系统误差影响实验最终的平均意义上的效果。这更多的是一种事前的警觉性体现，事后往往修正就比较难了，实验不尽如人意也就在所难免了。

OK，今天就简单的回顾一下Fisher的实验设计三原则，感觉这些东西在最基础的统计学中都学过，估计大家也都有把这些作为“重点”概念熟记应付考试的经历，其实刚才很多名词我搜了一下出来的都是XX试题详解。其实“随机误差”“系统误差”这些东西说起来容易，先不论很多人只是为了考试，大多数人学这些概念思想的时候很少有同时确实在动手做实验的，哪怕是物理化学实验，更少有思考实验设计“为什么这样”的机会，很多东西大家都约定俗成了。而到了社会实验，面临的问题就更复杂和多元化，对这三原则自然也会有一些不同的解读和理解，大概也是走出象牙塔之后的一种进步吧。实践出真知，比证明多少次plim a= a或者E(u|x)=0都更有切身体验。除了数学公式的所确保的一致性，在一个实验的实践过程中确实有太多的环节可以导致结果的偏差了，尤其是系统误差。如果对这些可能的因素没有警觉，那么实验的设计缺陷可能进一步导致实验结论的稳健性下降。所以，设计实验的过程更多本身就是一种学习和积累经验的过程，然后这种积累到了一定程度，就会影响到理论的发展和进步吧。科学不就是这么一点点艰难的前进的？虽然经济学或者其他社会科学还称不上实验科学，但是这些思想的引入和考量我觉得还是有益无害的。

Tags Fisher, 分层抽样, 区组化原则, 博弈论, 女士品茶, 实验经济学, 实验设计三原则, 小额贷款, 独立重复实验, 田野实验, 社会实验, 系统误差, 统计学, 费歇尔三原则, 重复原则, 随机化原则, 随机误差