Categories
事儿关经济

统计学和计量经济学的神奇?

我又要从方法论上说事儿了。关于计量经济学的应用,着实有一种“泛滥”的感觉。尤其是在前段时间和一些同学争论“格林兰因果检验”的时候,对那种“把统计检验结果奉若至宝”的态度实在是感到心痛。这种检验也就是摊上了一个好名字,最多可以否定一下因果关系(这还有待商榷),哪能作为肯定的依据?

这两天和Taiyun WeiYihui两位同学交流甚多,他们都是统计学专业科班出身的,可谓对于统计学的认识颇深。让我这么一个连本专业经济学都还没出师的对于统计、计量的看法和认识深入了很多。确实,计量只是一个工具,不能替代真实的世界中的因果关系(causal-relationship),虽然很多计量经济学家都在热衷于这件事儿。

到底,统计学和计量经济学应该在经济学分析中扮演什么角色?

下面是Taiyun Wei同学不辞辛苦整理贴给我的东西:

-------------------------------------以下引用其原文-------------------------------------

只是统计上的因果,能否定因果关系,却不能反过来支持因果关系。

我之前也这么认为,但是我目前的看法是:统计上的因果,即不能否定因果关系,也不能支持因果关系。之所以说不能否定因果关系,是因为实际条件可能错 综复杂,相互影响、噪声影响可能很严重。还有即便是统计方法,可能不同的方法得到的结果都是不一样的,有的支持有的不支持,这时候应该怎么选择呢?

下面是 我和朋友们的一些讨论,不当之处尽管批评:

  • 我觉得现实生活中的因果关系不可能从数学或者统计分析中得到,因果关系是一种很强的关系,只能通过对具体问题机理的分析、 验证才能确定,单纯从数据来看,很不安全。计量经济学中有个著名的granger因果检验,我觉得它的局限性很大,但也算是没有办法的办法了。我的基本统 计观是:实体科学为主,统计分析为客。统计永远是为实体科学服务的,固然十分重要,但不能反客为主。——魏太云
  • 目前学界的结论是,部分因果关系是可以推导出来的,当某些条件符合的时候
    有本非常经典的书,叫 《caustion,prediction and search 》,这里第一章就讨论到这个问题。你有兴趣的话可以去看看。当然,这些条件很容易就被人攻击。比如,有一个条件是,所有的variables of the system should be included or measured。这就是说,如果某一个变量的数据无法取得的话,那么从这个相关矩阵中找到的因果关系可能就是错的。——黄兄
  • 真正的因果关系,应该是排除宇宙中(或者一个更大的未知全集)所有其它变量的影响,看剩下的两个变量是否有时间上的先后必然关系。这样一来,太阳黑子、宇 宙射线、外星人、植物释放的氧气、到COS论坛注册的人数、蝴蝶是否扇动了翅膀等都应该纳入回归方程……计量经济学家如何解决这个问题呢?(很不幸,格兰 杰因果检验的横行似乎把原始问题掩盖了
  • 我对计量经济学的意见很大,以至于后来彻底放弃了这方面的学习,以上因果关系的问题便是原因之一。
    当然我不否认他们很认真,他们付出了很多努力,但如果是我的话,我不会钻进这个角落,我会用脑子(用心理学、经济学、社会学等)去验证因果关系,而不是用数学推导。有时候我觉得统计和量化就有点“过犹不及”的意思,导致我们训练出一批“有知识、没常识”的数学家。——谢兄
  • 本科时候读Wooldridge中级计量的书,觉得比Weisberg的应用线性回归写的好。当时只是觉得他对于 ceteris paribus(Rubin曾讨论过这个假定与其理论的关系)得解释很深入。最近在听Chen S.X老师计量专题的同时细细的看了Wooldridge高级计量书的某些细节,才恍然大悟:原来计量经济学家一直都在做causal inference。

    翻译错误:不是“房间”,是“月亮”!感谢Yihui
  • 这种说法不是没有根据的!Wooldridge在Econometric Analysis of Cross Section and Panel Data开篇就是“因果关系与其他条件不变分析”,阐释了计量经济学对于因果关系的关注。在书的Chaper 18, 专门介绍了Rubin的虚拟事实模型,这在统计学的教科书中几乎是找不到的!不过糟糕的是,中文翻译者根本不懂因果推断,把ignorability翻译 成“不可知性”,差之毫厘,谬以千里!在章,Wooldridge还介绍了Propensity Score以及Principal Stratification(Wooldridge写书的时候Frangakis和Rubin的文章还没有发表,所以后者没有被明确的提出),这些都是 因果的核心概念。
    老板认为,计量经济学讨论的endogeneity和exogeneity,就是流行病学讨论的有无confounding的问题。知道了两者的关系,则茅塞顿开。
    至此,我除了佩服老板的统计直觉以外,还不得不对这些关注因果的计量经济学家表示充分的敬意,因为要想从observational data推断因果,真是难于上青天!据说,Hume认为,这是不可能的。——丁兄

说这些话不是说统计无用,相反,统计很有用,但要具体问题具体分析,用得合适、恰当,而不要盲目套模型。但怎么用得恰当,可是很大的一个问题。正如号称经济学家的人那么多,但真正会用的有几个?

------------------------------------引用结束-----------------------------------------

看完之后,我的心里颇为一沉,印证了很多我在现实中隐隐约约体会到的对于计量经济学应用(尤其是初学者滥用)的疑惑。虽然其中某些观点稍显偏激,但是在现实中的事实是,太多的急功近利的行为导致了计量经济学、统计学的滥用。经济学专业的学生不去关注经济规律本身和客观的物质世界,只知道一头埋在统计数据里面企图挖掘出来什么鲜为人知的关系。这说明了人们的思考角度已经不是事物本身,而实证检验的英文原文empirical指的是"经验主义",而不是中文那般美化的仿佛就是现实中的必然规律似的。太多人忽视了统计应用的前提假设,胡乱把一堆例如结构方程模型(SEM)和数据包络(DEA)的东西随便应用到自己的分析中去,而不去严格的证明为什么可以这么用,为什么不会导致结果失真(或许他们也根本证明不了、没有意识去证明)。到这里,我不得不悲哀的说,这已经不是一个方法论的问题,而是彻底的世界观出问题了——认知世界怎么能全部依赖统计

然后看了Yihui写的一系列文章(三篇,针对低年级统计学专业学生的),外加一两篇分析。网址分别列出,只挑选其中部分内容转载。

----------------------------------------引用开始------------------------------------------

我们先看最简单的一个例子:t检验。我想只要是个学统计的必然都知道这个检验,它是用来检验位置参数的,比如单个样本的 均值是否为0,两样本的均值是否无差异,等等。我们也都知道这个线索:t检验需要t统计量,而t统计量的来历是独立的正态随机变量与卡方随机变量平方根之商(卡方要除以自己的自由度),实际应用中,这里的分母往往就是样本标准差。在t分布被Gosset发表之前,人们往往只能用总体标准差作为分布构造标准 正态随机变量来做检验和估计,Gosset的t分布伟大贡献在于,我们可以用可知的样本标准差替换不可知的总体标准差而且构造t统计量,这下就让人放心多 了,因为我们总是畏惧未知的总体(或者未知的参数),而且在小样本情况下更为畏惧——样本量太少我们就更不敢对总体标准差作出估计。

Gosset的确帮助我们解决了个大麻烦,然而t检验仍然要假设总体服从正态分布,这个麻烦可不好解决。可能马上就会有人说,分布也是可以检验的啊。没 错,是可以检验,比如著名的KS检验;问题就在于,统计分布检验的备择假设太大,我们做假设检验只能有把握得出“样本不服从某种分布”,而不能说“根据检验,样本服从某种分布”:因为犯第一类错误的概率可以控制,而第二类错误的概率只有鬼才知道(不干鬼的事,鬼也许也不知道)。

第二个例子我想稍微说一点关于抽样调查中的统计推断,这里面的统计推断往往比较简单,大致原理就是用样本均值估计总体均 值,样本方差估计总体方差,为什么能这样呢?因为这些估计量往往都是无偏估计,不妨仔细想想“无偏”的意思:期望等于真值;注意不是估计量等于真值,那期 望是什么意思呢?通俗来讲,期望就是一个随机变量按照它的分布不停地变变变,变了无数次之后我们看它在“平均”意义下取值为多少,当然抽样工作不可能一遍 一遍无穷做下去,我们一般仅有一次抽样,得到的估计量也就只有一个值,这一个孤零零的估计值,到底离真实值有多远?只能再去问问鬼。此时可能又有人会说, 我们不是还有方差吗?不是可以做置信区间的估计吗?没错,书上都是这么写的。方差有什么用呢?书上说了,方差是度量离散程度的,试着想一下,告诉你一个随 机变量均值为100,方差为1000,你能想出所谓的“离散程度”是怎样的吗?恐怕也难以想象,所以除非方差为零,否则我一向觉得它在描述统计中并没多大 实际意义(它的确是刻画离散程度的,但怎样叫大怎样叫小?没有标准)。再看置信区间,要谈置信区间一般也就不可避免要用到分布,于是假设条件又来了,一方 面是总体独立同分布,另一方面样本量足够大,这样才能根据中心极限定理构造正态分布随机变量。显然,两个问题来了:抽样能保证独立同分布吗?怎样的样本量 才算作大?又是不好回答的问题。例如分层和整群抽样,很能让人怀疑样本的独立性;而大样本的问题,从数理统计角度(中心极限定理)来看,必须是样本量趋于无穷,显然这是不可能的,若样本量趋于无穷了,那我们还抽什么样?

-我们的下一代必是男孩!-但是他们是选择样本!

其实,关于统计模型的这种质疑,也不是机器学习出现后才开始有的,以前看Gujarati的"Basic Econometrics"一书,曾经读到一段很有意思的话:

Economists' search for "truth" has over the years given rise to the view that economists are people searching in a dark room for a non-existent black cat; econometricians are regularly accused of finding one.
-- Peter Kennedy, A Guide to Econometrics, 3d ed., The MIT Press, Cambridge, Mass., 1992, p.82

经济学家们“在一间黑屋子里找一只本不存在的黑色的猫”,而计量经济学家往往会宣称他们找到了一只这样的猫。听起来很可笑,但从某种意义上来讲,我们何尝不是在做这样的事情?

----------------------------------------引用结束------------------------------------------

原文:谢益辉:关于统计推断的一些惴惴不安

这一篇可谓是最通俗的说明了他的所有观点的,此外还有几篇文章:

个人认为都是非常值得一看的。不再直接粘贴过来原文,敬请直接移步。

注,漫画英文来自:http://myhome.iolfree.ie/%7Elightbulb/Research.html 由我翻译为中文并直接修改图片。

Categories
事儿关经济

鱼与熊掌的选择

古人曰,鱼与熊掌不可得兼。似乎也成了亘古不变的真理。

今天溜回家里,懒懒的躺在床上,希望可以在这个略有些混乱的学期理出一点生活的思路。听了一个星期的课,却发现自己的逃课计划几乎全盘泡汤,只能老老实实的呆在教室里面学习。更是发现这学期的课程表从周一到周五排得满满当当的,加上晚上的,几乎没有空闲的时间,也很难保证每天的GRE复习时间。我想,这大概就是一种宿命吧。

我实在是不知道怎么选择为好,而且信息经济学对我来说确实也是比较重要。真是纠结啊,我不知道怎么样可以达到效用的最大化,或者是短期利益和长期利益的冲突。

这么的喜欢着经济学,今天浸浴在经济史的氛围中贪婪的享受着。这一周的时间感觉自己得到了许多,从而也开始眷恋这种学习生活。可是我真的不知道或者说没有把握在这么多课程还有GRE可能还有论文的压力下能够坚持下来,我不知道自己到底能够承受多大的压力,能够多么顽强的生存。

Coffee,还有什么可以节约时间的我想我都会统统利用起来。时间现在是我最最稀缺的资源,谁让我不得不面对自己把自己置于的背水一战的窘境。唉,这就是我的命么,好凄惨的一年。

或许还是会坚持着完善课程作为自己的第一要务吧,GRE这东西毕竟只是一个考试,只要是考试就必然是纸老虎,不怕不怕。然而丢失了自己的专业,那才是最最无从挽回的代价呢。所以,GPA才是王道!其他的能放的都暂且放一放吧,目标还是要少一点好。

至于论文,我想还是会写一些东西的,要不生活岂不是太无聊了,大好岁月不可能全部耗费在GRE上,听课的时候找点思路写写论文也是一件不错的事儿。看看这学期自己的进步也不错。

另外,汪丁丁的博客果然没有让我失望,最新的CCER的经济学思想史这门课已经把参考文献挂出来了。北大就是北大,CCER更是名不虚传,两篇参考文献分别是实验经济学和心理经济学方面的前沿,汪丁丁大概也在关注的就是这些东西。我打算试着去好好的跟着学学,虽然没有课堂那般优越的环境,但是还是希望可以很好的给自己一个锻炼的机会,增强阅读原版文献的能力。HOHO,加油咯~

Categories
事儿关经济

全还是精?两难的选择

事情是无限的,时间却是有限的。所以不要用有限的时间来追寻无限的事情。

因而,学习也是必须要选择和舍弃的。有人喜欢博学强识,有人却在一个领域做到了最好。这两种人都会成功,至少在某种程度上。但是现在对我来说,却有一个很现实的问题,是博学还是精专?

经济学现在分领域分的越来越细,对于现在的经济学学生来说,是不可能完全掌握所有科目的知识的,哪怕是全部的基础知识。虽然我现在对太多的课有着浓厚的兴趣,但是真的是难以完全的把握所有的科目的内容。比如我实在是对福利经济学很无语,虽然迫于中微考试不得不好好地学习了福利经济学的基本理论,但是实在是对那些理论不够感冒。

很喜欢经济学,但是实在是没有办法掌握所有的知识。面对选择,我想不得不对现实妥协。

然而,信息不对称下需要很强的激励……嘿嘿,最近研究激励理论有的走火入魔,但愿尽快研究完毕,好好地写一点东西。嘿嘿,下学期还得向导师汇报呢。哎,这玩意,咋汇报啊。把那堆长长的笔记都扔给他好了,就这样吧。剩下的就临场发挥吧。哦……信息经济学,好好上课……

Categories
事儿关经济

读书很杂,思维活跃,功利学习和沉淀

实在是找不出更好的题目了,只能简单的罗列一下这些关键词。

最近读了很多书,也听了很多讲座,几乎每时每刻都在受到多多少少的影响、思考和启发。我属于读书很杂的人,各类的书多多少少都有所涉及,网络上各种信息大都略知一些,长期坚持阅读的杂志如《大众软件》和《天文爱好者》、《故事大王》等等都给了我有益的信息和启示。然后最近开始专心的阅读一些经济学专著,前面说过豆瓣上列出了长长的阅读书单。不断的受着各种思潮的影响,潜移默化。当然,还有得益于最近连续的讲座(我已经连续听了三场不同类型却都受益良多的讲座了),我的思维开始进入一个异常活跃的时期——几乎每个小时都有新的想法,尤其是走在路上得以稍作思考的时候。

舍友常常问我为什么这么努力的学习,我可以简单的用GPA搪塞过去,以显得正常一点功利一点。但是从我自身来说,学习还是一种非功利性质的,当我在学习的时候我不会计较得到多少——虽然最初可能制定的计划是为了完成什么。这大概得益于我上半年期末的时候对于经济史的复习过程,原本我认为很枯燥的课程当面对考试压力不得不细细看的时候,却不禁沉浸其中,体会到了各种乐趣,这也是最后结果颇让人满意的缘故。

想想近两个月,从《卖橘者言》开始,一直到现在感兴趣的《新制度经济学》以及拉丰的著作。不断的阅读的经济学书籍和因为中级微观作业不得不仔细研读微观经济学书籍的过程,让我真的受益匪浅。虽然一直很自信自己的自学能力,但是面对经济学开始的时候觉得很困难,因为很多东西不知道怎么去接受,只能被动的记忆在脑子里,只是灌输。但是现在稍微好一些了,至少可以活跃的思考一些事情,而不仅仅是被动的学习知识了。这也许是一种非功利的学习,纯粹的学习带来的美妙感觉吧。

最后想说说虽然思维很活跃,接受的信息也格外的多,但是我还是觉得需要时间来好好的沉淀一下,把这些思维从理解到融合,最后完全的变为自己的。这不仅仅是学习到了多少纯粹的知识和方法的问题,而是思想。Idea,这是一个人之所以有异于其他人的地方。现在读这么多书,只是想完善自己的知识结构,让他更为坚固和稳定一些。感觉经济学毕竟是社会科学,百家争鸣,所以要找到自己的坚持,就必须一一的领悟,然后才知道什么是自己想要的。过程虽然辛苦,但我相信结果应该还是可以让人满意的。

Categories
互联网产业观察

接触PHP

现在接触的所有东西几乎都是基于PHP架构的,比如我这个博客。
今天忙活了一晚上为了修改PHP模板。先后使用了三套系统,都感觉不太理想,最后一套勉勉强强符合要求。各个作者有自己不同的架构模式,这就给我的理解带来了很大的困难。
不知道PHP到底有什么巨大的魅力,至少现在我的周围用PHP的远远比ASP或者JSP的多。
终于知道了类似于PHPWIND架构的网站怎么修改模板,现在我改版权页已经很熟练了。。。汗颜啊,先学会的竟然是这个。
然后前几天花大力气改的一个网站主页现在看来用不上了,因为静态和动态之间的结合不好做,要是做的话就几乎是把所有页面都改一个遍,这工作量可谓巨大。先放一个简洁的在那里凑合着吧。
但愿我可爱的老师能满意。。来日方长我慢慢改……反正也没多少访问量……
现在努力的学习PHP的结构,随着修改这几个模版我大概已经有了个了解。果然是在实践中提高阿,能看懂别人写的东西就是修改的基础。
但是让我头痛的是VeryCMS中层的定位,它似乎不是定死的,而是动态拼接的,这就造成我删除某个部分会导致其它东西漂移,更奇怪的是我查看源码却没有发现有关定位的语句。也就是说,我能在浏览器上看到的正常的页面时必须动用他所有默认的东西……Dear!
接连因为网站的问题看来好多关于网页设计的书,听了N多讲座,不惜千里迢迢的从南新区跑到东校。我都怀疑自己到底是学什么的了。。。经济or计算机?
大概改完这两个网站的模版之后我就会潜心研究PHP更深入的东西了。从图书馆借来N多书,准备作为参考。感觉上书上的东西和实际操作起来还是有很大的区别的,很多东西都已经更新换代了。要是能方便的上网就好了,这样就可以随时看到最近的技术发展情况了,也可以更深入的了解程序。
对于网络编程来说我还是只可怜的菜鸟,不知道什么时候才可以羽翼丰满,相信不会用太多的时间的。一年,这一年我要潜心学习编程的东西。
在此,我立下一个誓言:
明年春天过C语言二级!
不仅仅是应付考试而已,我的目标是掌握所有二级设计的知识。不仅仅是语法和算法,也要进一步了解数据库方面的东西,尽快的过三级。不过,对于内存的精确控制我还是一点不懂,不知道什么时候才能达到这样的积淀来理解。
说多了,我都不知道自己称不称得上一个有着近7年网龄的网虫了。为了一些东西我一度远离了互联网最尖端好长时间了,但愿弥补回来。虽然以后不会从事这个职业,虽然以后不会像现在一样这么关注技术的更新,但是我希望在大学中好好的学点自己喜欢的东西。
嗯,继续研究我可爱的PHP~至于平面设计嘛,权当cookies好了。
对了,顺便好好学学我可怜的英语~因为,以后在Linux之下的时候,可能会使用一个全英文的版本呢!再说要把Blog逐渐的改成全英文的呢。