Categories
经济、IT观察与思考

一些观察

随便写写,随便看看。

1. 关于研究方向。

读的paper多了,发现大多数人的研究路数无非两种:

  • 一种是锚定一个问题,然后用尽各种办法来看哪种可解。换个通俗的就是,车坏了,找出一堆工具来看看怎么可以修好。
  • 另一种则是,沿袭一套方法论的路数,试图解决越来越多的问题。通俗的讲,就是木工不满足于打打家具,还要去试试电工水工装修工。

你说孰优孰劣?没有高下之分。谁也说不好一篇好的研究到底是问题导向的还是方法论导向的。不过鉴于一般来讲方法论比较容易训练出来,所以有的时候看似包装的很漂亮的paper可能正是这个方法灵了然后倒回头来包装问题本身。

本以为这个只是看paper时候的感觉。后面发现,工作其实也不外乎如此。有的人凭着一门专业技能,比如编程,就可以在不同部门之间切换来切换去,反正总有需要用到编程的地方。有的人有一些具体问题,然后就广撒网找来各种背景的人帮忙解决。前者最后进化为技术专家,后者进化为大BOSS。

2. 关于建模

说到模型,反正上来都是那句至理名言:

没有模型是正确的,只有一些是有用的。

所以一切试图证明自己是真理的模型都是无用功。如果是真理,搞成体系那就叫他理论,可以慢慢证明就叫做定理,不证自明那就叫公理好了。反正我觉得说某个模型是正确的这种言论都是挺无聊的。

基于这一条,在实际商业环境中建模,就不要一开始给自己摆太高的期望。就跟上面说的,很多时候问题都是第一类人发现的,他们只是寻求有着不同技能的第二类人帮忙看一下,实践中谁好用就用谁。所以一群第二类人内部争来争去,什么机器学习流派啊、数理统计流派啊、计量帮啊、物理统计帮啊还是算命仙人这些其实都不那么重要...比如最近世界杯大家都在预测,那么不管你是章鱼还是小丸子还是霍金,只有预测对了大家才信你。

所以在学校里被某个流派洗脑洗的深入骨髓的,可以醒醒了。不要一上来就摆出自己是真理这样的架势。每个人在象牙塔里都是这么教的。

3. 关于统计建模

如果大家笃定就要用统计的方法了,那么要解决的问题就无非是:搜集数据(变量)、选择模型、修改参数以达到最优。

具体到项目,搜集数据这个肯定是大头。每个学过统计的都被教导过“garbage in, garbage out”。只可惜大部分老师讲完这句话之后,学生并没有多少机会实际的去搜集数据,或者更直接的去想要怎么搜集数据。大部分学校里面的训练(尤以网上数据挖掘竞赛之时)都是,数据集给定,怎么找个更好的模型来预测/评估/解释。真到了项目上需要搜集数据了,大部分人的做法无非就是先找张纸把想到的变量都分门别类列出来,然后把所有可能拿到的数据都扔进去试试,从简单的线性回归或者分类器开始,到非线性的各种模型都扔进去跑一遍,反正这年头计算能力不是瓶颈,总有合适的模型自己可以去做变量选择。

听到这里,貌似也挺好啊。是啊确实没什么不好,如果大家都有充足的时间慢慢玩的话。可惜的就是这种无脑流在大多数情况下都是受制约于时间的。于是为了省时间,要么就某些麻烦的数据不搜集了,要么就某些计算复杂的模型不去跑了。差不多就好了。解决问题了么?可能也差不多解决了70%-80%。

与此同时还有一类业务流派。这类人特别像医生似的,是某个具体领域的专家,专到什么程度呢?基本上他熟悉的地儿有个风吹草动都逃不过他的眼睛。直觉很准,或者说经验实在是太丰富了。跟这个流派的人一起工作很好玩,他们想到一个问题大概的给你指一个方向,大部分情况下八九不离十,差不多就可以把问题解决了。就算事后需要稍微建建数理模型多做一些分析和验证,基本也不会太麻烦。每当此时,不禁大呼一声畅快,瞬间觉得自己以前的思路真实的麻烦爆了。嗯,爽归爽,不过这种流派需要在一个领域浸淫比较长的时间,逃出他的领域就比较难说了。

4. 关于这些碎碎念

基本上就是想说,容易训练出来的都是不重要的...那些东西都进化很快,学术界不是白白养了一群人浪费的(虽然也挺浪费的),所以长江后浪一定会把前浪拍死在沙滩上。

与此同时,业务知识也不是那么重要的。经济环境变化太快,谁也不知道明天这个世界会变成什么样子。

那既然都是以不变应万变,那还是选一条比较开心的路子。总是需要合作的,这个世界已经复杂到没有可以一个人解决的问题了。

Categories
事儿关经济

统计学和计量经济学的神奇?

我又要从方法论上说事儿了。关于计量经济学的应用,着实有一种“泛滥”的感觉。尤其是在前段时间和一些同学争论“格林兰因果检验”的时候,对那种“把统计检验结果奉若至宝”的态度实在是感到心痛。这种检验也就是摊上了一个好名字,最多可以否定一下因果关系(这还有待商榷),哪能作为肯定的依据?

这两天和Taiyun WeiYihui两位同学交流甚多,他们都是统计学专业科班出身的,可谓对于统计学的认识颇深。让我这么一个连本专业经济学都还没出师的对于统计、计量的看法和认识深入了很多。确实,计量只是一个工具,不能替代真实的世界中的因果关系(causal-relationship),虽然很多计量经济学家都在热衷于这件事儿。

到底,统计学和计量经济学应该在经济学分析中扮演什么角色?

下面是Taiyun Wei同学不辞辛苦整理贴给我的东西:

-------------------------------------以下引用其原文-------------------------------------

只是统计上的因果,能否定因果关系,却不能反过来支持因果关系。

我之前也这么认为,但是我目前的看法是:统计上的因果,即不能否定因果关系,也不能支持因果关系。之所以说不能否定因果关系,是因为实际条件可能错 综复杂,相互影响、噪声影响可能很严重。还有即便是统计方法,可能不同的方法得到的结果都是不一样的,有的支持有的不支持,这时候应该怎么选择呢?

下面是 我和朋友们的一些讨论,不当之处尽管批评:

  • 我觉得现实生活中的因果关系不可能从数学或者统计分析中得到,因果关系是一种很强的关系,只能通过对具体问题机理的分析、 验证才能确定,单纯从数据来看,很不安全。计量经济学中有个著名的granger因果检验,我觉得它的局限性很大,但也算是没有办法的办法了。我的基本统 计观是:实体科学为主,统计分析为客。统计永远是为实体科学服务的,固然十分重要,但不能反客为主。——魏太云
  • 目前学界的结论是,部分因果关系是可以推导出来的,当某些条件符合的时候
    有本非常经典的书,叫 《caustion,prediction and search 》,这里第一章就讨论到这个问题。你有兴趣的话可以去看看。当然,这些条件很容易就被人攻击。比如,有一个条件是,所有的variables of the system should be included or measured。这就是说,如果某一个变量的数据无法取得的话,那么从这个相关矩阵中找到的因果关系可能就是错的。——黄兄
  • 真正的因果关系,应该是排除宇宙中(或者一个更大的未知全集)所有其它变量的影响,看剩下的两个变量是否有时间上的先后必然关系。这样一来,太阳黑子、宇 宙射线、外星人、植物释放的氧气、到COS论坛注册的人数、蝴蝶是否扇动了翅膀等都应该纳入回归方程……计量经济学家如何解决这个问题呢?(很不幸,格兰 杰因果检验的横行似乎把原始问题掩盖了
  • 我对计量经济学的意见很大,以至于后来彻底放弃了这方面的学习,以上因果关系的问题便是原因之一。
    当然我不否认他们很认真,他们付出了很多努力,但如果是我的话,我不会钻进这个角落,我会用脑子(用心理学、经济学、社会学等)去验证因果关系,而不是用数学推导。有时候我觉得统计和量化就有点“过犹不及”的意思,导致我们训练出一批“有知识、没常识”的数学家。——谢兄
  • 本科时候读Wooldridge中级计量的书,觉得比Weisberg的应用线性回归写的好。当时只是觉得他对于 ceteris paribus(Rubin曾讨论过这个假定与其理论的关系)得解释很深入。最近在听Chen S.X老师计量专题的同时细细的看了Wooldridge高级计量书的某些细节,才恍然大悟:原来计量经济学家一直都在做causal inference。

    翻译错误:不是“房间”,是“月亮”!感谢Yihui
  • 这种说法不是没有根据的!Wooldridge在Econometric Analysis of Cross Section and Panel Data开篇就是“因果关系与其他条件不变分析”,阐释了计量经济学对于因果关系的关注。在书的Chaper 18, 专门介绍了Rubin的虚拟事实模型,这在统计学的教科书中几乎是找不到的!不过糟糕的是,中文翻译者根本不懂因果推断,把ignorability翻译 成“不可知性”,差之毫厘,谬以千里!在章,Wooldridge还介绍了Propensity Score以及Principal Stratification(Wooldridge写书的时候Frangakis和Rubin的文章还没有发表,所以后者没有被明确的提出),这些都是 因果的核心概念。
    老板认为,计量经济学讨论的endogeneity和exogeneity,就是流行病学讨论的有无confounding的问题。知道了两者的关系,则茅塞顿开。
    至此,我除了佩服老板的统计直觉以外,还不得不对这些关注因果的计量经济学家表示充分的敬意,因为要想从observational data推断因果,真是难于上青天!据说,Hume认为,这是不可能的。——丁兄

说这些话不是说统计无用,相反,统计很有用,但要具体问题具体分析,用得合适、恰当,而不要盲目套模型。但怎么用得恰当,可是很大的一个问题。正如号称经济学家的人那么多,但真正会用的有几个?

------------------------------------引用结束-----------------------------------------

看完之后,我的心里颇为一沉,印证了很多我在现实中隐隐约约体会到的对于计量经济学应用(尤其是初学者滥用)的疑惑。虽然其中某些观点稍显偏激,但是在现实中的事实是,太多的急功近利的行为导致了计量经济学、统计学的滥用。经济学专业的学生不去关注经济规律本身和客观的物质世界,只知道一头埋在统计数据里面企图挖掘出来什么鲜为人知的关系。这说明了人们的思考角度已经不是事物本身,而实证检验的英文原文empirical指的是"经验主义",而不是中文那般美化的仿佛就是现实中的必然规律似的。太多人忽视了统计应用的前提假设,胡乱把一堆例如结构方程模型(SEM)和数据包络(DEA)的东西随便应用到自己的分析中去,而不去严格的证明为什么可以这么用,为什么不会导致结果失真(或许他们也根本证明不了、没有意识去证明)。到这里,我不得不悲哀的说,这已经不是一个方法论的问题,而是彻底的世界观出问题了——认知世界怎么能全部依赖统计

然后看了Yihui写的一系列文章(三篇,针对低年级统计学专业学生的),外加一两篇分析。网址分别列出,只挑选其中部分内容转载。

----------------------------------------引用开始------------------------------------------

我们先看最简单的一个例子:t检验。我想只要是个学统计的必然都知道这个检验,它是用来检验位置参数的,比如单个样本的 均值是否为0,两样本的均值是否无差异,等等。我们也都知道这个线索:t检验需要t统计量,而t统计量的来历是独立的正态随机变量与卡方随机变量平方根之商(卡方要除以自己的自由度),实际应用中,这里的分母往往就是样本标准差。在t分布被Gosset发表之前,人们往往只能用总体标准差作为分布构造标准 正态随机变量来做检验和估计,Gosset的t分布伟大贡献在于,我们可以用可知的样本标准差替换不可知的总体标准差而且构造t统计量,这下就让人放心多 了,因为我们总是畏惧未知的总体(或者未知的参数),而且在小样本情况下更为畏惧——样本量太少我们就更不敢对总体标准差作出估计。

Gosset的确帮助我们解决了个大麻烦,然而t检验仍然要假设总体服从正态分布,这个麻烦可不好解决。可能马上就会有人说,分布也是可以检验的啊。没 错,是可以检验,比如著名的KS检验;问题就在于,统计分布检验的备择假设太大,我们做假设检验只能有把握得出“样本不服从某种分布”,而不能说“根据检验,样本服从某种分布”:因为犯第一类错误的概率可以控制,而第二类错误的概率只有鬼才知道(不干鬼的事,鬼也许也不知道)。

第二个例子我想稍微说一点关于抽样调查中的统计推断,这里面的统计推断往往比较简单,大致原理就是用样本均值估计总体均 值,样本方差估计总体方差,为什么能这样呢?因为这些估计量往往都是无偏估计,不妨仔细想想“无偏”的意思:期望等于真值;注意不是估计量等于真值,那期 望是什么意思呢?通俗来讲,期望就是一个随机变量按照它的分布不停地变变变,变了无数次之后我们看它在“平均”意义下取值为多少,当然抽样工作不可能一遍 一遍无穷做下去,我们一般仅有一次抽样,得到的估计量也就只有一个值,这一个孤零零的估计值,到底离真实值有多远?只能再去问问鬼。此时可能又有人会说, 我们不是还有方差吗?不是可以做置信区间的估计吗?没错,书上都是这么写的。方差有什么用呢?书上说了,方差是度量离散程度的,试着想一下,告诉你一个随 机变量均值为100,方差为1000,你能想出所谓的“离散程度”是怎样的吗?恐怕也难以想象,所以除非方差为零,否则我一向觉得它在描述统计中并没多大 实际意义(它的确是刻画离散程度的,但怎样叫大怎样叫小?没有标准)。再看置信区间,要谈置信区间一般也就不可避免要用到分布,于是假设条件又来了,一方 面是总体独立同分布,另一方面样本量足够大,这样才能根据中心极限定理构造正态分布随机变量。显然,两个问题来了:抽样能保证独立同分布吗?怎样的样本量 才算作大?又是不好回答的问题。例如分层和整群抽样,很能让人怀疑样本的独立性;而大样本的问题,从数理统计角度(中心极限定理)来看,必须是样本量趋于无穷,显然这是不可能的,若样本量趋于无穷了,那我们还抽什么样?

-我们的下一代必是男孩!-但是他们是选择样本!

其实,关于统计模型的这种质疑,也不是机器学习出现后才开始有的,以前看Gujarati的"Basic Econometrics"一书,曾经读到一段很有意思的话:

Economists' search for "truth" has over the years given rise to the view that economists are people searching in a dark room for a non-existent black cat; econometricians are regularly accused of finding one.
-- Peter Kennedy, A Guide to Econometrics, 3d ed., The MIT Press, Cambridge, Mass., 1992, p.82

经济学家们“在一间黑屋子里找一只本不存在的黑色的猫”,而计量经济学家往往会宣称他们找到了一只这样的猫。听起来很可笑,但从某种意义上来讲,我们何尝不是在做这样的事情?

----------------------------------------引用结束------------------------------------------

原文:谢益辉:关于统计推断的一些惴惴不安

这一篇可谓是最通俗的说明了他的所有观点的,此外还有几篇文章:

个人认为都是非常值得一看的。不再直接粘贴过来原文,敬请直接移步。

注,漫画英文来自:http://myhome.iolfree.ie/%7Elightbulb/Research.html 由我翻译为中文并直接修改图片。

Categories
读书有感

对前辈的敬仰——凯恩斯《我们后代在经济上的可能前景》读后感

学习经济学这么长时间,读了很多书,也在正规的科班好好的学习了很多方法论。但是总觉得自己陷入了一个框架中,会分析问题但是走不出来思考其缺陷和现实的冲突。这也是最为欠缺的地方——没有创新,只是重复劳动。虽然可以很功利的协议写论文之类的东西,但毕竟没有形成自己的思想,怎么说都是难以接受的。而且更为重要的是,方法始终是方法,形式的完美解决不了问题的实质,数学只是一种最为严谨的逻辑推演方式而不是替代一切的真理表达。因而,沉迷于那么方法的形式完美中并没有很好的形成自己的思想,这是让我现在颇为头痛的一件事情。诚然,思想的形成需要一定的时间来沉淀,但是从某种程度上来说,忽略了思想的学习是我现在很急功近利的一个表现,不是一种好现象。

最近在忙碌的被动地应付考试中不断的试图沉淀自己的思维,用一系列经典的文献来调节心情,并主动地去思考和理解,而不是被动的接受观点——其实观点并不重要,重要的是观点形成的过程和问题的实质——这又有些可以归结为哲学问题的范畴了。经典的意义就在于,在不同的时间读会产生不同的启迪和思考。

之所以这么说,是因为今天看了著名经济学家凯恩斯的《我们后代在经济上的可能前景》。限于手头资料,读的是中文译本,虽然不知道有多少失真,但是读完了对于心里的震撼是非常大的。凯恩斯作为开创一代理论的经济学大家,其想法自然有独到之处。虽然现在很多所谓的“著名经济学家”也在标榜自己的由经济道理的经济散文,但是相比于凯恩斯来说,尤其是从字里行间表现出来的思想深度来说,实在是不足一提——这有点是当代中国学术浮躁的反应。凯恩斯是一个经济学家,但他的思维远远不限于经济学领域,而是有很多对于社会、哲学、宗教等等领域的思考,其经济学家“悲天悯人”的天性自然的流露于字里行间。

一个人思想是不是深刻,不是简简单单的自我标榜和考虑到社会每个层次就可以的。在我看来,能不能关注到是一个层次,关注到之后怎么去分析和演绎又是另一个层次的事情了。
现在可以肯定的是,人类的需要是永无止境的。不过,人类的需要可以分为两类——一类是绝对的需要,即是说,不管周围的其他人境况如何,我们都会感到这种需要的存在;另一类是相对的需要,即是说,只有当这种需要的满足能够使我们凌驾于他人之上,产生一种优越感时,我们才会觉察到这种需要的存在。这第二类需要,即满足优越感的需要,也许才真正是不知餍足的,因为当一般的水平有了提高之后,这种需要也会水涨船高,不过,绝对的需要也许将很快达到,其实现的时间也许要比我们大家所意识到的还要早得多,而当这些需要得到了满足,那时我们就愿意把精力投放到非经济的目的上去。

…………因此,显而易见,我们是凭借我们的天性——包括我们所有的冲动和最深层的本能——为了解决经济问题而进化发展起来的。如果经济问题得以解决,那么人们就将失去他们传统的生存目的。

……对那些为了每日的面包而辛勤劳动的人来说,闲暇是一件令人向往的乐事;而当这种向往成为现实时,他们才发现原来是另一番滋味。

这段话在我们看来并不新鲜,或许在当时的时代背景下也不是什么独创。但是当你在这篇文章中看到这些文字,在被前面的思维所影响着的时候,突然间却有一种豁然开朗的感觉。我想这并不算得上什么写作的技巧,而是作者严谨的逻辑思维的体现。说理说得透彻,这才是一个经济学家最为难得的技能。其实单单这一段,已经超出了传统经济学分析的框架——或者说我们必须在原来的框架里面进行一些所谓的拓展——但是这却是很多经济学家恐慌的缘故,因为他们一直以来害怕经济学基础的颠覆。正如科斯在经济学引入制度因素的伟大贡献,还有后来引入不确定性分析的贡献,经济学每每都经历了一次在外人看来有些不可思议的“痛苦”过程。这人为的延缓了经济学发展的进程,也是其现实解释力和预测能力颇有有限的诟病所在。

虽然很多经济学家喜欢引入不同形式的效用函数来解释人们的行为,但事实是人们的行为真的能够用一个足以概括的函数来抽象描述吗?当然我不否认贝克尔和冯·诺依曼的伟大贡献,事实上我们一直在他们的伟大思想框架下耕耘着,他们给了我们一种认识这个世界的科学方方。只是我一直认为宏观经济学缺少一些真正的分析立足点,始终难以接受它把所有的社会现象视为同质化基础上的分析——虽然在统计学看来是很有道理的。我只是想知道,“失之毫厘、谬以千里”,我们究竟离社会发展的本事规律偏离了多远?还能走回正确的轨迹上吗?

凯恩斯想到了社会发展的许多问题,也意识到了经济学现有分析方法的局限性,但是他所处的时代(上世纪二三十年代的资本主义经济危机和大萧条)赋予了他更为神圣的使命,而上帝并没有留给他更多的时间来完善经济学的分析框架。每一门自然科学学科到最后,都是一种哲学层面上的思考。但是思想和感知有了之后,形成系统的科学的分析方法还需要很多的时间和很多代人的努力。

现在可以肯定的是,人类的需要是永无止境的。不过,人类的需要可以分为两类——一类是绝对的需要,即是说,不管周围的其他人境况如何,我们都会感到这种需要的存在;另一类是相对的需要,即是说,只有当这种需要的满足能够使我们凌驾于他人之上,产生一种优越感时,我们才会觉察到这种需要的存在。这第二类需要,即满足优越感的需要,也许才真正是不知餍足的,因为当一般的水平有了提高之后,这种需要也会水涨船高,不过,绝对的需要也许将很快达到,其实现的时间也许要比我们大家所意识到的还要早得多,而当这些需要得到了满足,那时我们就愿意把精力投放到非经济的目的上去。

理论来源于实践;理论一旦形成,又会很好的指导实践。

马克思一语道出了理论的实质。虽然我不欣赏现在大学对于马克思主义的教育方法,但是实质上马克思哲学原理可以很深的影响我们的思维方式。他所倡导的辩证唯物主义在目前看来是一种颇为客观和使用的对待这个世界的方法。但是不得不承认的是,哲学并不是背背书就能够学好的,是要随着个人对于世界的认知加深而形成的。况且社会并不需要那么多思想家,也不需要所有人都有哲学领悟。如同“社会不需要那么多物理学家“一样。

诚如题目所指的,读完凯恩斯的文章,在被他的思想深深震撼后,对于他的印象决不仅仅是“政府干预经济”理论提出的意义了。有的时候我们说历史很重要,因为历史给了我们一个看问题的依据——以史为鉴。这里想说的是,理论本身并不重要,结论也不重要。重要的是怎么伴随着它的假设在一个理想的框架内如何分析,怎么在现实生活中拓展应用,然而最后是,他的思想到底应该如何发展下去?我承认,我的思想越来越多的被不同的“大家”影响着,或许暂时失去了自己的判断力。需要时间来沉淀,需要实践来印证,需要经历去感知。我想后面的,正是我现在最为欠缺的。