Categories
读书有感

最近读paper的一些领悟

读paper易,做model不易,且读且珍惜。下面仅为个人半夜胡言乱语,轻拍~

最近扫paper的数量没什么下降,但是深入读全文的paper越来越少。一个原因大概是很多working paper 研究的问题我不怎么关心?毕竟不是读书的时候需要读很多paper来应对coursework presentation和literature review...

说说一些感受这样。看paper首先是看标题,有没有特定的关键字;有的话再去看下一步摘要,有没有有意思的地方,无论是建模方面还是结论。摘要有意思的话就标记出来,待扫完目录后去打印个别全文细细咀嚼。感觉现在扫working paper的功力越来越纯熟了,一个小时完成上述工序扫个十篇左右这样。

但是比较哀伤的是我发现大部分选出来的paper还都能读懂,尤其是实证的paper,清一水的不是DID就是RE或者RDD,最多来个IV。读起来更有意思的地方怕是背景描述这块,有很多历史人文地域常识可以了解。我想说那个ATE不是不重要啦,但这货真的不稳定(随时间迁移),做一个时间节点上的估计有多大的概率会历史重演呢?而且很多时候是需要多个因素共同作用的,就跟个化学实验似的,控制的除了原材料还有温度湿度气压等等,实验室里面这些客观条件可控,但经济发展中不可控的甚至不可观测的客观因素实在是太多了。计量更多的框架还停留于单因素分析上(当然单因素已然分析不易),是不是有点落后于时代的诉求呢?唉可能还是要期待数学工具、统计理念对于关系数据处理的更深理解吧。现在的network model还是孱弱了一点。

默默的再补充一个实践中在大数据(big volumn big dimensions)客户数据建模中的体会。很多的时候我们会倾向于找客户的原始特征,所谓的demographical variables,性别啊年龄啊收入啊。但是除了facebook这样真人社交网站,谁会告诉网站自己是男是女年方几何呢?然后为了找这些”珍贵的”数据,要不就是通过现有的数据来猜,比如买女士用品的八成是女性;要么就是通过调查来获取一部分人的真实社会属性。然后呢?扔到模型里面回归去...

我想说,若是前一种,何必绕着弯子从可观测的数据生生的去猜不可观测的数据,然后再用猜出来的数据去预测其他东西?直接用可观测的数据好了。本来就是社会属性->特定可观测行为->预测未来行为这样的路径(比如我知道啊买尿布啤酒组合的八成是新晋爸爸,但是我只要知道你买了尿布啤酒日后就也需要婴儿车日后消费潜力巨大就足够了嘛,我干嘛一定要去知道你是男性已婚已育?看看你买的尿布牌子我大概也知道你家的消费层次和接下来的品牌层次偏好了,何必去苦苦的猜你的收入?),有点像经济学里的“显示偏好原理”,或者有向的贝叶斯网络这样(给定上层节点信息,上上层节点信息无用),何必这么折腾...若是后一种,还需要去费时费力不讨好的调查?又不是以前数据尤其是观察维度稀缺的时代了。每次见到刚被象牙塔教育好的遵循123456黄金律步骤出来的建模者,我都忍不住先深深的吸一口气冷气然后苦口婆心的讲一下为什么这些东西其实不那么重要...

都是被现有的实证paper毒害的,动不动就是入户调查数据。哎,人家是做田野实验的需要手工搜集数据各种来之不易,和你们玩大数据的到处都是蛛丝马迹不一样啊!干嘛只会比着葫芦画瓢,明显使劲的方向不怎么对嘛。学界没数据啊所以没办法,业界一堆数据还愁数据搜集?随随便便做个随机试验前后数据爱取多少取多少...喵,尤其是做预测模型的,其实可以不用那么折腾呀。读paper易,却也是取其精华弃其糟粕,玩的灵活才开心嘛。

再啰嗦一句好了,学计算机和数据挖掘出身的只学怎么在现有数据基础上建模,不学基本的数据搜集实验设计这些统计理念,所以不会往这边想;学统计的又被一群没玩过大数据的长江前浪所禁锢,框架就在那里,你见或不见。估计等现在这一辈成熟了下一辈人就真的是站在巨人的肩膀上了。

Categories
我的生活状态

文字的风格

一份普通的结果分析报告被我硬生生的写了成一篇标准的实证计量文章,可怜那个给我耐心的一点点解释这东西为什么不work的人……突然间觉得也不过是一两年的时间就被一篇篇学术论文成功的毒害至深了。强迫自己坐下来以一个普通读者的身份重新审阅那份报告,恍然觉得真的是不知所云。

顿时沉寂……本以为自己的文字表达能力一直是很好的,突然间才发现并没有自己想象的那么尽如人意。倘若当时拿出来几分写blog的耐心,或许也不至于写成那么技术化。然后顿时开始怀疑自己的blog是不是也越写越失败,越来越没有耐心静下来好好的分析一个问题,用最最通俗的语言和表达方式。

两日两次往返杭州,顿时感觉自己已然有了“住在上海、工作杭州”的潜质。不过想想,貌似很不划算的样子。大家更愿意住在杭州,反过来吧~每次都躲在一个书店上面的很低调的咖啡厅里面,静静的等待中午的阳光渐渐暗淡。然后突然觉得时间过得好快好快,然而事情再也不象在象牙塔里面那样可以一一的计划着来,各种随意和冲击。突然发现,真正需要集中注意力工作的时候,其实根本不需要什么咖啡来提神。那东西,或许只能用来应付老师上课吧。

越来越觉得自己笔下的文字失去了细腻的感觉,越来越简练和固定,缺乏新意。翻看五六年前那些为了某些节目而写的策划案,顿感一种悲哀——年少时期的创造力和飘扬的文字,难道就这么渐渐被时间沉淀了么?是因为忙碌淹没了创造性,还是越来越没有那种完美的执着。突然觉得,很多事情走的太快,好想稍稍停下来喘口气。

然后心里还压了好些事儿。比如没改完的paper,比如各种许诺了要做的事情。一点点的理顺之后,觉得自己好像在玩一个游戏的endless模式似的。或许,年底的时候我需要一段时间的vacation时间,放逐自己。

去年此时依稀在感慨失去了经济直觉,莫非每个秋天都是一种历练的时节?春去秋来,一切终将回归正常的。

Categories
网络新发现

惊见神文!计量速成???

刚刚无意间看到了一篇超级牛的文章,简直就是神文啊,广大被计量苦苦折磨的同学们的福音啊!原文载在臭名昭著的人大经济论坛,真是什么论坛配什么文章,不过这篇文章确实是太有意思了,所以我忍不住就转了……后花园备份见此:http://blog.loyhome.cn/369 这篇文章有多神奇呢?

  • 首先,这家伙不是完全在胡说八道,而是还真多少懂一些计量(至少还知道R不是),虽然没有人肉不知道她到底发过多少文章……
  • 其次,我从来没见过几千字就能把计量从头到尾说一遍的文章,而且说的那么实用……就算明白计量理论,看一遍也多多少少能知道在实践中到底有哪些问题需要注意。
  • 关键是,能把高深的计量理论娓娓道来、几句话就说清楚,这本事还真不小。

但是,唉,如果大家都这么搞计量,那么中文经济学文献真的就没什么前途了。计量只是工具啊工具啊,哪有为了发文章而玩计量玩上瘾的,直觉啊直觉啊!当然,我觉得作者还是有一点好初衷的,至少大家被逼着造东西毕业的时候,也别造的太离谱是不是?我的观点是,既然人家不想做学术,又何必逼着每个人都去造论文?观察到学术灌水的现象之后,要知道背后是有深刻的制度原因滴~嗯。所以,大家有点闲暇时间,比如吃午饭的时候,可以抽个十分钟扫一眼这篇神奇的文章,乐一乐无碍~(只盼计量不要在中国这么发展下去啊~咱“师夷长技”,也得先学会是吧?不能总一瓶子不满半瓶子咣当的灌水啊。此时我不禁又加深了对stata之流软件的憎恨……学个软件谁不会啊,只是这种低水平的重复烂造,有意思么?)

嗯,然后作者还推荐了一篇文章,叫“独立思考者的思考模型”,此文的原作者大概是管理学出身,引用了很多模型来阐述观点。我有点不太习惯此类风格的文章,所以没有细细读。不过大致看下来还不是太离谱,所以顺便在这里贴个备份了。(没有联系原作者,有异议的话请通知我,我会撤下)。PDF见此:Patterns of Independent Thinking

另,想起来一个绝佳的简单计量的例子:

  • Banerjee, A., E. Duflo, R. Glennerster, and C. Kinnan. 2009. “The miracle of microfinance? Evidence from a randomized evaluation.” J-PAL Working Paper.

通篇就一个ITT啊~谁说计量一定要玩炫的?

www.duniuniu.com独立
Categories
事儿关经济

文化差异,实验科学~

感觉自己好就不说“文化差异”这个词儿了,有的时候毕竟只是个体差异没有必要非归根结底到文化上,不公平。可是有件事儿除了文化差异我实在想不出来别的词儿来解释了,那就是abortion,即中文的“堕胎”。

这学期在听labor economics,而其后半部分正是关于family economics的,所以我们就整体热火朝天的讨论堕胎等诸多事宜。我感觉(希望不是太离谱),在中国堕胎其实是很普遍很容易的,依稀记得原来在教室上自习的时候都能不时受到各种“无痛人流”的小广告卡,一打开报纸也都是类似的广告,可见这个产业有多么发达。所以我一直不觉得堕胎是件多么大不了的事儿,不过是无知少女付出的代价而已。没想到在这点上,西方反而比我们保守。这里面有宗教的原因,觉得堕胎是谋杀生命,尤其是在美国;还有健康的考虑,医生只在特定的某几个月对孕妇实施堕胎手术(西班牙当地的情况)。结果一讨论起堕胎,就看到周围同学的脸色煞然间严肃起来,只有我若无其事的夸夸其谈,然后还很天真的问“这在美国算个大事儿么?”,预期到同学们很无奈的回答我“要知道这东西在美国是一个极其敏感的话题”。哈哈,有点以此为乐的感觉。同样的还有避孕套这个东西,据说米国有些人是不用的,出于的是宗教的原因。想想国内这东西的承认度好像蛮高的,没听说啥宗教的考虑,也没啥传统文化的约束。说到堕胎,还想说一下中国的性解放……感觉上,中国在这个问题上特别矛盾,一方面是传统家族文化施加的压力下各种保守,以及有点极端的“处女情结”泛滥;另一面又是性教育的缺失,尤其是对于年轻少女们的保护远远不够,导致很多人根本意识不到堕胎的危害,只是一味的不肯承担后果。我想知道的是,如果她们知道“堕胎三次以上就会习惯性流产以至终身不孕”,那么还会这么伤害自己的身体吗?性解放如果只是行动意识上的解放,而不是教育上的解放,这恐怕会有点悲剧的色彩。某种程度上我还比较幸运,生物比别人学的多一些,所以从科学的层面了解的多一些;却也每每看到听到各种花季少女的故事,不禁感到遗憾和悲伤。

插一句很悲惨的事儿,最近development在讲国际贸易、生产力之类的东西,然后这老师好像格外偏爱中国似的,篇篇文章都以中国为例子。可怜我对这东西一点知觉都没有,上课的时候听的云里雾里的,问问题也问不出来,回答问题也没话可说,好像这里的“China”我不曾呆过似的,一点都没有熟悉的感觉。真的是上课倍感悲凉啊,看来我的宏观和国际经济学基础真的是差到一定程度了,连别人为什么研究TFP之类的东西都没有直觉,嗯……

然后突然想起来曾几何时看到过这么一句话,忘了是谁写的以及在哪里看到的了,作者很悲伤的感慨“我认识的很多做理论做得好的,做着做着就转计量了”,然后一片悲摧的神情几乎跃然纸上。我原来也是有点多多少少偏向modelling而不是empirical的,现在却多少改变了一些想法,实证的很多估计还是能给人带来很多直觉的。如果实证研究做得好的话,对于理论的贡献也是不可低估的。况且,计量还有计量理论本身是不是?那些天才相当于半个统计学家呢!原作者的理由大致是计量好出文章,所以很多人迫于生存压力就转行了。我就在想,计量某种程度上是好出文章,但是现在大家都玩到这个程度了,实证方面的经济学越来越有实验科学的倾向了,难道实验科学好出文章?没有那么简单吧。

最近也算自愿、也算无可奈何的要在一周内做两个research proposals,一个是关于sexual education的,大致是想看看如果通过社会网络进行性教育,会不会比传统的课堂教育效果更好,毕竟这东西这么敏感是不是;另一个是marriage market的,大致是整合一些心理学方面对于情侣配对的研究然后放在经济学里面,争取在 partner matching阶段做出一点有意义的解释。没办法,这俩东西都是for family economics的,所以逃不开这些话题。不过还算幸运,是跟两个group一起做,我的实际工作就少了很多,更多的是提提idea然后有人去写下来成正式的文章,嗯啊。某种程度上的轻松。关于sexual education那个,显然是要做实验了。然后我最近一直在跟同伴们强调的就是“如果我们在experimental design层面做的好一点,那么后面的计量分析会轻松许多”,这是在我突然间发现他们在research proposal的大纲上酣然列下了probit model之后惊出的一身冷汗。还没设计好实验呢,就开始考虑计量模型和那些fancy的方法了,晕。虽说实验不是万能的,但是我们总是可以尽力做的更理想一点,控制的更好一点,实在不能控制的再用identification strategy去弥补嘛!毕竟一旦到了计量上,就是一个“效率(efficiency)和一致性(consistency)的平衡”问题了。我是宁愿选择前期多做一点,后面可以让结果用相对简单的模型也能估计的很有说服力。

说到一致性,在我脑中往往的联系就是“统计上的因果关系”。计量的一大目的就是做"causal effect"估计,中文自然就是“因果推断”……不知为什么每次这么翻译的时候都小小的犹豫一下,觉得这四个字重若泰山。说具体一点,其实是统计上的因果推断。这个idea大概来源于生物实验,最有名的自然是孟德尔的豌豆基因的实验,想必大家高中生物课上都学过。这里不重复实验的细节了,想说的是那个实验提供了对于染色体、基因工作规律的直觉,后面科学家才能更进一步的挖掘其中的原因。这是一个很典型的统计推断做出巨大贡献的例子。然后计量上,尤其是在田野实验中,我们也跟科学家似的弄个实验组(treatment group)再弄个对照组(control group),然后控制一下随机分布就可以说是因果关系了(实验设计理想的话)?当然关于这个问题的争论还很多,一大批判来源于structural那边,大致就是说你只知道结果可能是这样,但是你不知道为什么会是这样,所以这实验能不能重复(internal validity),以及推广到其他情形有多大效果(external validity),都是未知的。当然,这个也得看你到底想得到什么了。对于政策制定者来说,很多时候并不需要知道这玩意儿到底为什么工作,只要知道这个政策能工作就好了。最简单的例子,我们作为一般电脑用户,大多数人并不知道电脑为什么会工作,不知道CPU是怎么处理0101这些二进制东西的,只要我能用Photoshop修个图、word排个文件就行了。所以有的时候,我对reduced form也不是那么的反感,有点实用主义的味道——看你想要什么了。

最后还有一点点想说的,就是赚钱和经济学的事儿。labor economics里面很关心教育回报的问题,其中就有很多人研究过各个大学专业与毕业后工资水平的问题。如果市场的选择是理性的话,那么从现在大学录取时候的分数线就可以看出,那些专业前景相对较好。当然,经济学首当其冲。不过“经济学”这个词儿看起来太过美妙,大到可以“经世济国”,最不济也可以养家糊口,所以很多家长就抱着美好的愿望毅然决然的把孩子送到经济学专业里面来了。其实本科的时候还好,相比于其他纯理科,经济学和现实应用的距离稍稍近一点,换句话说就是和市场脱轨的不是那么厉害。但是一旦到了学术那一面,其实啥子学科都是一样的,学术永远是和赚钱不是那么直接相关的。不知道这是一种科学家的清高,还是学术界和市场的本质目标不同。但是经济学依旧那么热……一个被“曲解”的绝佳例子就是Laffont的《激励理论》,明明是一本很技术性的委托代理模型的教科书,就是配上了这么一个模棱两可的名字,于是就被某些管理学MBA课程之类的拿去当作“员工激励”之类的东西去讲了……当然我不知道那些人是怎么演绎着这东西的,毕竟确实是有CEO等代理问题可以通俗化的解释,不过无论如何总是感觉怪怪的是不是?话说回来,相比于其他学科的不着边际,经济学还是稍稍好一点点的——我是说本科毕业生找工作的时候。所以,选专业的时候选经济学或许真的是市场理智选择的结果……

Categories
事儿关经济

天才,R会议还有那个小册子

先说说小天才们。今年无意间在Google Reader里面看到一篇枫叶兄分享的日志,是一篇关于庞加莱的几何学的文章(见http://www.eaglefantasy.com/archives/386),虽然已是一年以前的了……之所以突然间对此问题感兴趣,是因为前几日一朋友在博客上的留言(见http://www.loyhome.cn/935.html/comment-page-1#comment-6807),当时说到了P Versus NP,我就很无知加很无耻的继续讨教了下去:

克雷数学研究所悬赏的7个问题之一,哦,不对,现在只有六个了,庞加莱……
可以简单理解成某些经典组合优化问题是否有多项式时间复杂度的图灵机算法
http://en.wikipedia.org/wiki/P_versus_NP_problem

看了半天那个NP和P的问题,感觉好象是算法那边的,大概糊弄了自己一下就放过去了,因为有更感兴趣的千禧年7个悬赏问题。嘿嘿,搜了一下,大致了解了来龙去脉,于是乎对庞加莱更加的感兴趣。我真的是孤陋寡闻到一定程度了,根本不知此人为何大牛,就像前几个月还不知道写僵尸研究的Gelman是统计学泰山一样……没事,亡羊补牢,开始津津有味的八卦起来此人的历史。嘿嘿,在看不懂他研究的是什么的时候,看看传记是最有意思的一件事儿。

然后脑海中刻下了此人的大名,没想到时隔不久就又碰到关于此人的文章,自然要跳过去好好阅读一番。非欧几何我接触的不多,但是断断续续的也对那边的理念有一些了解。最初是高中的时候在张景中院士的科普读物《数学与哲学》里面有了一个印象,而后去年有幸阅读《西方文化中的数学》一书的时候渐渐的建立起来了一个整体的概念。然而看到庞加莱,着实感觉到此人的体系有多么的诱人……

回到题目,其实想说的是这篇博文的作者,也就是宇宙的心弦博客的博主,一位年纪轻轻的小天才。说他年纪轻,是因为他是90后,但是90后这个词儿多少有点奇怪的味道,所以年纪轻轻一词足以。说他小天才,看看他的博客就知道了,从高中开始就接触那么多的物理学,真的让吾等无知之辈汗颜。想当年俺也是狂迷恋天文滴,虽然现在时过境迁,天文大概与我无缘……一直以来有种强烈的偏好,觉得小天才们都是对数学或物理有着超强的领悟力……如果按照我的这个有点莫名的标准,那么此人必可归类于此。上了这么多年学,见过的可以称之为天才的却寥寥,大概加起来也没有一只手的指头那么多……当然不排除我孤陋寡闻的因素。

从这个角度讲,吾等不济之士便从数学一路沦落,弄个应用数学混个颜面——譬如经济学。曾记得高中毕业时,很不好意思的跟数学老师说我去学“文”了,她问我是何学科,我曰经济。她笑了笑,说没事儿,你还是学的数学,只不过是应用数学罢了。当时我还没理解,学经济学的前两年也没理解,到现在隐隐约约知道她当年那番话是多么的有远见。果不其然,无论经济学别人学成啥样,我还是把它大半当作应用数学来学了,因为纯粹就是经济学思想加上数学表述嘛。

再说一件有意思的事儿。第三届中国R语言会议就要召开了,现在已经开始紧锣密鼓地筹备了。统计之都论坛上已经开始部署启动工作,诸位热情高涨,此次有望突破历史。目前在商定会场事宜,诸位有兴趣(承办、建议)的话可以直接杀到该页面(http://cos.name/cn/topic/101426)留言,我就充当一回摇旗呐喊者……

不过说实话这次我并不确定能不能参加,不过大概可以确定的是肯定不会站在讲台上面了,这次只想安安静静的做个观众。当然做观众不代表沉默,因为现在手头一直有一件事儿压着,隔三差五的我也弄一弄,目前已经稍稍有个雏形了,那就是一本关于R和计量经济学的小册子(暂定名曰:Play Econometrics with R)。现在刚刚弄完第二章,打算先内部测试一下(简称内测)听听修改意见,而后会公开的发布一个试读(简称公测)征集大家的看法。这个小册子是打算免费在互联网上发行的,作为COS的项目之一……目前关于这个小册子的一点点信息可以在这里看到(http://blog.cloudlychen.net/beginning-play-econometrics-with-r),具体的发布平台和流程还在探讨中……

Anyway,如果你对此小册子有兴趣,可以加入我们的mailing list(此招感谢Frank兄提醒,借用于此Prof),当此册子完成到一定程度之后你会收到一封邮件通知,大致包括我们更新了哪些内容、更正了哪些错误、计划完成哪些部分。这样一个定时的email通知是为了方便及时得到大家的反馈,让我们这本免费的小册子在大家共同的心血浇灌下更快的成长。目前Mailling List的加入方式暂时只有:

  • 在本文后面留言(只需在email框里填上你的email即可,不用在留言内容中再指明,从而避免spam)
  • 发一封邮件给我:cloudly.chen[at]gmail.com (请把 [at]替换成@)

暂时只能这样麻烦大家,当然待具体的流程完善后,我会进一步改进订阅方式和反馈系统。

p.s. 最后补一句:人生最悲哀的事儿莫过于在网上搜一个问题,却发现搜来搜去列在google前面的结果都是来自自己的博客……FAINT!