Categories
事儿关经济

说说我所认识的“最小二乘君”(配图版)

由于近些年常常跟搞数据分析的人混迹在一起,所以很多时候说话方式有点偏向机器学习了...顺便心里暗暗的忧伤一下当年的心路历程(不知道我的基本轨迹的可以先去看看CV..)。这里聊作一二记录,讲讲我所认识的“最小二乘法”(下称最小二乘君)。那个,语言稍显浮夸,大家随便看看哈,别较真。

<锲子>

是写小说的时候大家都兴先来个“锲子”么。7年前,我还是一个年幼无知的大学新生儿。当时我们系开了两门传说中各挂50%的数学课:微积分和线性代数。同学们大都学的死去活来,我也学的死去活来,一度开始怀疑自己的智商...其实现在想想,我也不知道当年为什么学的那么痛苦,现在随手用个微积分貌似都很水到渠成的样子。嗯,可能是老师授课方式不够好吧。那年直到期末考试,我也不知道我学了一年的微积分有什么用处,除了背下来少数的几个证明推导和学会了一堆算微积分的“技巧”之外。

从前有棵树,叫高树,树上挂了很多人……挂了很多人的高树...

线性代数也是一样的。当年翻看某本计算机类入门书(可能是算法与数据结构),前言一开始就是一行金字,大意是“矩阵论是当代计算机基础×××”。然后翻翻后面的果然看不懂,于是默默的去图书馆把这本书还了,然后借了一本黄皮的泛着金光《矩阵论》回来。同样悲催的,啥也没看懂,然后默默的放弃了我在这个领域深修的打算,乖乖的回去上必修课了。(所以我当年学习高级计算机知识的一腔热情就被这么无情的浇灭了哇!果断考完当时的计算机等级考试——C语言和数据库就扔掉编程了...)

线性代数一直学到最后,我还是以为这东西就是来替代“高斯消元法”解联立方程式的...什么特征根啊,奇异值分解啊,格拉姆-施密特正交化啊,直到最后我也没明白是干嘛用的,除了会算几个数之外...没想到,那日一别,重逢已是花落花开好几轮之后...当真是良辰美景虚设!只是万万没有想到,他乡遇旧友,而这厮竟和日后的最小二乘君紧密相连,难分难舍。

138112_091242423086_2良辰美景虚设

Categories
读书有感

降维模型若干感悟

前几天集中爆发了一些email,直到最后和Frank兄提起,他说我应该去看一下 Adaptive Lasso,我才终于痛下决心开始看这方面的东西。先说说为啥开始看Lasso。

需求。大数据时代,任务有很多:

  • 理论层面,要有适应大数据的模型。一方面是数据量的增加(表现为个体记录的增长),一方面是数据维度的增加(简单的说就是回归方程右边的变量),让大数据这个任务变得格外艰巨(p.s. 这个不是我总结的,照抄上次ShanghaiR沙龙时候Ming的原话...话说我别的没记住,就这句话深深的印在脑海了,哎~)。
    • 数据量的增加,对应的是大样本理论。这个好玩的有很多,暂且不表。
    • 数据维数的增加,则需要相应的降维模型。你总不能在回归方程右边放入几千个变量,“维数灾难”啊...所以变量选择是个很好玩的话题。
  • 应用层面,一个模型性质再漂亮,你也要能算得出来才行是不是?
    • 首先就是要有个好的算法,比如在「统计学习那些事」中提及的LAR对于Lasso的巨大贡献。
    • 其次,什么分布式计算啊,并行计算啊,都成为热呼呼的实践问题(当然我还是go against那些不管三七二十一、直接软件中调用模型的。任何一个模型的假设和局限性都是应该首先考虑的,要不真不知道预测到哪里去了呢~)。

好吧,好久没用这么多层级了。只是昨天稍稍理了理思路,顺便写在这里,算作「感悟一」。

然后,说到底统计学还是为其他学科服务的(好吧,我是想说数据不是无源之水,总归有自己的背景,总归有在这个背景领域的人希望借助数据来解决的问题)。那么作为一种empirical method,统计模型关心的是什么呢?在被计量经济学熏陶外加祸害了若干年后,发现它本质还是为了经济学研究的一些目的服务的,所以关注的更多是consistency,大家张口闭口就是“变量外生性”...而这多少有些直觉+经验判断的东西。显然,统计模型不仅仅是计量经济学,昨天看「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」,大致的关于统计模型关心的判断标准的「感悟二」总结在这里:

  • consistency:这个还是逃不掉的,一致性在大样本下虽然比小样本的无偏要求来的弱得多(plim毕竟比期望算子好“操作”一些)。其实有一段时间我一直很抵触把计量经济学里面的causality叫做因果关系,学习计量模型的过程基本就是保证估计一致性的推导过程...想说的只是,真正的因果关系不是统计学就可以定义的,还是要回到学科本身。consistency更多包含着“internal validity”的味道,即一个结果可以期望在样本本身内重复实现。个人感觉,从经济学理论与实证研究的角度,这大概是计量经济学能达到的最多的程度了吧。再苛刻的因果真的就是经济理论本身的问题了。
  • accuracy: 统计还有一大任务,做预测。我们都知道OLS有的时候可以很简单的给出一个consistent的估计量,但是仅仅是均值意义上的估计还是不够的,对你还得给出个方差。这个方差就刻画了你的估计值是不是飘来飘去。我们当然希望一个方差比较小的估计量,所以大多数时候OLS是不能满足这样的要求的(顺便复习一下BLUE的那些条件)。
  • implementable: 有的时候我们可以用现有的数据、花费大量的时间,来拟合一个漂亮的模型。但是,模型不是放在那里就可以的,在实际应用中大家更关心的是,模型建立之后对于日后决策的指导作用。可能1000个自变量拟合出来的模型比20个好10%到20%,但是在实际应用中,20个变量显然更实用...同理,有些非线性模型漂亮的一塌糊涂,但是计算复杂度可能远远不是多项式级别的。这个时候,退而求其次也不失为一记良策。说到底,有的时候并不要求最完美的模型,总要在性能和效率之间取得一个平衡。
  • 当然说到prediction,这里更多的就有statistical learning的味道了。回归多少还算是supervised learning,至少脑海里大致有个印象什么是回归方程那一边的y。更多的时候,连y是什么都没有概念,所以就有了基于similarity的模型,比如clustering,比如协同过滤...不过有句话确实说的好(摘抄自「统计学习那些事」):

立新老师曾经有这么一句话:“If a method works well in practice, there must be some theoretical reasons for its success.” 如果一个模型在实践中表现的很好,那么一定有它好的原因。

所以基于上述三点(当然还有可能有更多的考虑),不同的模型对于不同的标准有着不同的达标水平。大家各有所长,用哪个还真得看实际任务的需求了。

「感悟三」,则是statistical learning (统计学习,有点机器学习的味道)的任务,这个是从「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」上照抄的:

  • 预测准确性要高:和上面的accuracy对应。
  • 发现有价值的预测变量:更有可能从归纳法回溯到演绎法,给出更多的insights。

最后的,稍稍偏数学一点。「The Elements of Statistical Learning: Data Mining, Inference, and Prediction」里面第三章讲了很多Shrinkage Methods,关心的是varible selection(生物统计中feature selection)的问题。从大家最耳熟能详的stepwise(逐步回归),到ridge regression(岭回归),再到Lasso(或者把LAR也算进来)。基本说来,ridge和Lasso是在OLS基础上一个很有意思的变化。

  • OLS求解的最优化问题是:
  • ridge regression则是加了一个L2惩罚项,即 ,其中t是一个给定常数参数。
  • Lasso则是把这个L2变成了L1,即

就这么一个简简单单的变化,就有了后面那么多神奇的性质。「感悟四」就是,原来Lasso思想并不是那么复杂啊。

Categories
事儿关经济

落差与落寞

原来学计量的时候,喜欢嘲笑计量自以为是的“因果关系”,一致性毕竟只是数据上表达出来的统计标准,到底是不是因果关心还有待考量。可见,对于科学,多少还是心存敬畏的。

工作之后,先是[cref %e5%ba%95%e7%ba%bf 感慨底线一而再、再而三的降低],后则是各种无奈。比如想回答一个问题,是不是“X导致了Y”,明明有很好的计量方法可以去用,结果无奈的只能一次次的按照一种“普通青年能理解的思路”用最简单的分类统计去做,然后什么“显著性检验”之类的都算作浮云了。这个时候再自嘲,自己都不愿意看着自己算出来的结果说事儿了。唉,更加怀念当年手动推的日子咯。

有的时候,真的不知道应该怎么办才好。原来也是比较喜欢画图的,后来觉得很多时候画图是一种不负责任的在误导,就越来越少的画图了。久而久之,对于图形的直觉就越来越差了。很多时候,也不知道怎么办好,就那么安静的坐在那里,看窗外云卷云舒……

有的时候,或许不知道,心情会更好一点吧。曾经沧海,才知道难为水有多么的难!

抑或许,我犯的最大错误,就是太顺从、太软了。或许,以后应该更多的stand out,亮出自己的声音!

Categories
事儿关经济

文化差异,实验科学~

感觉自己好就不说“文化差异”这个词儿了,有的时候毕竟只是个体差异没有必要非归根结底到文化上,不公平。可是有件事儿除了文化差异我实在想不出来别的词儿来解释了,那就是abortion,即中文的“堕胎”。

这学期在听labor economics,而其后半部分正是关于family economics的,所以我们就整体热火朝天的讨论堕胎等诸多事宜。我感觉(希望不是太离谱),在中国堕胎其实是很普遍很容易的,依稀记得原来在教室上自习的时候都能不时受到各种“无痛人流”的小广告卡,一打开报纸也都是类似的广告,可见这个产业有多么发达。所以我一直不觉得堕胎是件多么大不了的事儿,不过是无知少女付出的代价而已。没想到在这点上,西方反而比我们保守。这里面有宗教的原因,觉得堕胎是谋杀生命,尤其是在美国;还有健康的考虑,医生只在特定的某几个月对孕妇实施堕胎手术(西班牙当地的情况)。结果一讨论起堕胎,就看到周围同学的脸色煞然间严肃起来,只有我若无其事的夸夸其谈,然后还很天真的问“这在美国算个大事儿么?”,预期到同学们很无奈的回答我“要知道这东西在美国是一个极其敏感的话题”。哈哈,有点以此为乐的感觉。同样的还有避孕套这个东西,据说米国有些人是不用的,出于的是宗教的原因。想想国内这东西的承认度好像蛮高的,没听说啥宗教的考虑,也没啥传统文化的约束。说到堕胎,还想说一下中国的性解放……感觉上,中国在这个问题上特别矛盾,一方面是传统家族文化施加的压力下各种保守,以及有点极端的“处女情结”泛滥;另一面又是性教育的缺失,尤其是对于年轻少女们的保护远远不够,导致很多人根本意识不到堕胎的危害,只是一味的不肯承担后果。我想知道的是,如果她们知道“堕胎三次以上就会习惯性流产以至终身不孕”,那么还会这么伤害自己的身体吗?性解放如果只是行动意识上的解放,而不是教育上的解放,这恐怕会有点悲剧的色彩。某种程度上我还比较幸运,生物比别人学的多一些,所以从科学的层面了解的多一些;却也每每看到听到各种花季少女的故事,不禁感到遗憾和悲伤。

插一句很悲惨的事儿,最近development在讲国际贸易、生产力之类的东西,然后这老师好像格外偏爱中国似的,篇篇文章都以中国为例子。可怜我对这东西一点知觉都没有,上课的时候听的云里雾里的,问问题也问不出来,回答问题也没话可说,好像这里的“China”我不曾呆过似的,一点都没有熟悉的感觉。真的是上课倍感悲凉啊,看来我的宏观和国际经济学基础真的是差到一定程度了,连别人为什么研究TFP之类的东西都没有直觉,嗯……

然后突然想起来曾几何时看到过这么一句话,忘了是谁写的以及在哪里看到的了,作者很悲伤的感慨“我认识的很多做理论做得好的,做着做着就转计量了”,然后一片悲摧的神情几乎跃然纸上。我原来也是有点多多少少偏向modelling而不是empirical的,现在却多少改变了一些想法,实证的很多估计还是能给人带来很多直觉的。如果实证研究做得好的话,对于理论的贡献也是不可低估的。况且,计量还有计量理论本身是不是?那些天才相当于半个统计学家呢!原作者的理由大致是计量好出文章,所以很多人迫于生存压力就转行了。我就在想,计量某种程度上是好出文章,但是现在大家都玩到这个程度了,实证方面的经济学越来越有实验科学的倾向了,难道实验科学好出文章?没有那么简单吧。

最近也算自愿、也算无可奈何的要在一周内做两个research proposals,一个是关于sexual education的,大致是想看看如果通过社会网络进行性教育,会不会比传统的课堂教育效果更好,毕竟这东西这么敏感是不是;另一个是marriage market的,大致是整合一些心理学方面对于情侣配对的研究然后放在经济学里面,争取在 partner matching阶段做出一点有意义的解释。没办法,这俩东西都是for family economics的,所以逃不开这些话题。不过还算幸运,是跟两个group一起做,我的实际工作就少了很多,更多的是提提idea然后有人去写下来成正式的文章,嗯啊。某种程度上的轻松。关于sexual education那个,显然是要做实验了。然后我最近一直在跟同伴们强调的就是“如果我们在experimental design层面做的好一点,那么后面的计量分析会轻松许多”,这是在我突然间发现他们在research proposal的大纲上酣然列下了probit model之后惊出的一身冷汗。还没设计好实验呢,就开始考虑计量模型和那些fancy的方法了,晕。虽说实验不是万能的,但是我们总是可以尽力做的更理想一点,控制的更好一点,实在不能控制的再用identification strategy去弥补嘛!毕竟一旦到了计量上,就是一个“效率(efficiency)和一致性(consistency)的平衡”问题了。我是宁愿选择前期多做一点,后面可以让结果用相对简单的模型也能估计的很有说服力。

说到一致性,在我脑中往往的联系就是“统计上的因果关系”。计量的一大目的就是做"causal effect"估计,中文自然就是“因果推断”……不知为什么每次这么翻译的时候都小小的犹豫一下,觉得这四个字重若泰山。说具体一点,其实是统计上的因果推断。这个idea大概来源于生物实验,最有名的自然是孟德尔的豌豆基因的实验,想必大家高中生物课上都学过。这里不重复实验的细节了,想说的是那个实验提供了对于染色体、基因工作规律的直觉,后面科学家才能更进一步的挖掘其中的原因。这是一个很典型的统计推断做出巨大贡献的例子。然后计量上,尤其是在田野实验中,我们也跟科学家似的弄个实验组(treatment group)再弄个对照组(control group),然后控制一下随机分布就可以说是因果关系了(实验设计理想的话)?当然关于这个问题的争论还很多,一大批判来源于structural那边,大致就是说你只知道结果可能是这样,但是你不知道为什么会是这样,所以这实验能不能重复(internal validity),以及推广到其他情形有多大效果(external validity),都是未知的。当然,这个也得看你到底想得到什么了。对于政策制定者来说,很多时候并不需要知道这玩意儿到底为什么工作,只要知道这个政策能工作就好了。最简单的例子,我们作为一般电脑用户,大多数人并不知道电脑为什么会工作,不知道CPU是怎么处理0101这些二进制东西的,只要我能用Photoshop修个图、word排个文件就行了。所以有的时候,我对reduced form也不是那么的反感,有点实用主义的味道——看你想要什么了。

最后还有一点点想说的,就是赚钱和经济学的事儿。labor economics里面很关心教育回报的问题,其中就有很多人研究过各个大学专业与毕业后工资水平的问题。如果市场的选择是理性的话,那么从现在大学录取时候的分数线就可以看出,那些专业前景相对较好。当然,经济学首当其冲。不过“经济学”这个词儿看起来太过美妙,大到可以“经世济国”,最不济也可以养家糊口,所以很多家长就抱着美好的愿望毅然决然的把孩子送到经济学专业里面来了。其实本科的时候还好,相比于其他纯理科,经济学和现实应用的距离稍稍近一点,换句话说就是和市场脱轨的不是那么厉害。但是一旦到了学术那一面,其实啥子学科都是一样的,学术永远是和赚钱不是那么直接相关的。不知道这是一种科学家的清高,还是学术界和市场的本质目标不同。但是经济学依旧那么热……一个被“曲解”的绝佳例子就是Laffont的《激励理论》,明明是一本很技术性的委托代理模型的教科书,就是配上了这么一个模棱两可的名字,于是就被某些管理学MBA课程之类的拿去当作“员工激励”之类的东西去讲了……当然我不知道那些人是怎么演绎着这东西的,毕竟确实是有CEO等代理问题可以通俗化的解释,不过无论如何总是感觉怪怪的是不是?话说回来,相比于其他学科的不着边际,经济学还是稍稍好一点点的——我是说本科毕业生找工作的时候。所以,选专业的时候选经济学或许真的是市场理智选择的结果……