Categories
事儿关经济 经济、IT观察与思考

跨学科研究之殇

今天看到木遥的一篇文章:为什么跨学科的研究项目是件残酷的事,略有感触,在此罗嗦几句。

1. 经济学大量吸收了数学家,Arrow之后更是有一系列微观理论数理化的变革,Laffont的加入对于博弈论的影响扩大也不可或缺。这些人,在当年应该都算是“跨学科”的吧,经济和数学总是走的那么近,和统计学就更不用说了。
2. 很多学科领域都在期待数学工具的变革和进步,很多学科的突破式发展也是得益于数学工具的引入。物理和数学的渊源就不用说了,生物这些年来也多多少少依赖着好多数学工具的发展。另外从某种层次上,计算机和数学是不分家的……
3. 交叉学科研究最难的是,要求一个人具备两个、或者更多领域相对专业的知识。某一个领域少了一点,都不足以支撑一个突破性研究的进展。或者应该这么说,纯知识是好学的,关键是习惯两个以上领域的思维方式,知道他们分别关心的是什么,然后找到交叉点,这是我觉得对人要求最高的。隔行如隔山,很多时候确实如此。

最后补一句,最近常用一句话,

偏见源于无知

无知请理解为“某种知识的欠缺”。举个简单的例子,一个统计调查和研究估计往往首先要考虑的问题之一就是,样本是不是selected sample。简单的说,你不能跑到东北去进行人口身高采样然后回来告诉大家这就是中国人的平均身高(而某些国际研究,限于资金人力,往往在一个国家就取一个或者几个点)。selected sample,以及我们耳熟能闻的truncted data, censored data 等等,都是样本较之于总体的缺陷,自然会造成最后估计的偏颇。这也是很多时候,为了保持无偏(一致)性,我们需要根据样本的特征加上各种假设(比如Tobit模型)进行修正,然后才能得到基于假设下面的一致估计。

这是从统计或者计量的角度说这个估计的事儿,那么扩展一点,统计的本质无非是“归纳法”(此处特指相比于演绎法),那么自然是基于已有的信息集作出对已经发生的事件的判断。如果信息集不全,正如我对“无知”一词在上面的运用,那么得出的结论必然多多少少是有所偏颇的(无偏成为了小概率事件)。从这个角度来说,跨学科研究对于研究者多领域知识的高要求,在我的理解中,是这些研究突破困难但是珍贵的最主要原因(至于是不是偏颇,我们只能说这里无偏就更加的是一种信念了,没有什么可以衡量比对的依据了)。

终归,在一个充满噪音的信息集里面,找到有效信息,是一个脑力+体力活。Ph.D在我看来,值钱的地方正是这种孜孜以求的苦干精神,怕是真的与上上课就能学来的知识、和考考试就能获得的分数或者证书没什么关系。至于木遥所说的就业问题,呃,学界容不下还有业界……不要这么看不起业界……实践也能出真知啊。从学术研究突破所需的资源来看,业界能提供给研究的资源是完全不同的,所谓换个角度看世界嘛。

Categories
事儿关经济 经济、IT观察与思考

社会实验的特殊性(二)

还真没想到这一题目居然被我一直写下来了,虽然已然时隔一月。今天想说的是偏社会实验设计的东西,起承于“费歇尔(Fisher)三原则”。当然,关于Fisher,建议大家读一下《女士品茶 (The Lady Testing Tea)》这本书,会得到更多的八卦故事以及他的思想的来源。

Fisher三原则是指实验设计的:1)随机化原则 2)重复原则 3)区组化原则。

我就沿用计量的术语了,第一个随机化原则大家都比较熟悉了,就是保证进行实验的时候实验组和对照组(如为对照实验)的同质性,也就是避免我们在将实验对象分组的时候分组不均、造成由样本偏差带来的实验对照结果偏差。从社会实验来看,实验的对象必然是人,那么人作为一个主动行为和决策的个体,自然会有非常强烈的个体之间的差异,这也是我在[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7]里面一直在说的问题。随机化最常见的就是lottery,比如彩票或者抽签的形式决定哪些人可以进入 treatment group、哪些人留作对照。这种方式最常见于小额贷款实验的实践中,因为他们想看一下有机会得到贷款(优惠)的人是否和其他人日后的生活有了显著的差异,从而证明小额贷款的意义。这种实验方法从技术和随机性原则来说并没有什么问题,但是在实践中却经常被口诛笔伐,毕竟有些优惠政策很吸引人、这样子的随机抽取而不是按需分配多少有点不道德的味道。关于疫苗、书籍等牵涉到一代人命运的分配更是如此,这样子随机实验的“机会成本”着实太高,谁也无力大规模承担。众所周知,由于种种原因印度成为了小额贷款等microcredit的优选试验田,因此有了这么一张经典的图片……

因此随机性原则说起来容易,但是很多时候还是有实践困难的,要不也不用RDD(Regression Discontinuity Design)等稍显复杂和依赖于更强假设的模型了(当然,某些时候RDD的假设也不是那么强……这个各种经典的实验分析方法日后另论)。

再说第二条“重复原则”,就是说实验可以被重复、然后结论经得起重复试验的检验。这种要求最常见于理科实验中,比如物理、生物、化学等。刚看到一条新闻说是“欧洲研究人员发现了难以解释的中微子超光速现象",其中有这么一句“参与实验的瑞士伯尔尼大学的安东尼奥·伊拉蒂塔托说,他和同事被这一结果震惊了,他们随后反复观测到这个现象1.6万次,并仔细考虑了实验中其他各种因素的影响,认为这个观测结果站得住脚,于是决定将其公开”。我们姑且不论这个发现的物理意义和新闻的正确性,假设新闻是正确的,那么重复实验1.6万次就足以在大样本下排除实验每一次的一些随机性和测量误差,更充分和有说服力的证明一个实验结论的可靠性。这一条原则在社会实验中相对较难满足,因为每一次都是“独立重复”实验隐含着对于实验对象也要保持一模一样的要求。然而我们很难找到两群完全相同的人去做实验,比如我们今年找大一的学生做一次心理暗示教育,明年再做这个东西下一批学生多多少少就会有一些不同,三五年之后这种不同便更明显了。对同一群人做重复实验显然不可取,在经历了一次 treatment 之后实验个体已然发生了改变,不可能回到原来的起点重新做重复实验了。这也是社会实验面临的严格性挑战之一。最简单的,很多人说做博弈论的实验,觉得只需要一组两个人参与,然而看看实验经济学的paper有多少前后实验设计并无二致的实验进行之后结果迥异。这也是实验经济学就算是 lab experiment、不算 field experiment 也会出现各种争议的缘故。毕竟,实验的对象在变化,这样的重复实验并不是完全的“独立重复实验”。从社会实验来看,更多的只是能说一次结果,然后找一群我们认为关键的特征相似的人群做下一次实验。实验的不可完全重复性某种程度上决定了我们对于一次实验结果的internal validity和external validity的难以确保性,也就是说这种试点实验结果在多大程度上可以复制到所有我们感兴趣的人群中,还需心里预先打个折扣。我觉得,两次实验结果一致那真的有点纯属巧合了,不一致还是正常的。这也是很多时候我对于实验估计出来的marginal effect并不是特别的关心,只看一下数量级便是了,更关心的则是显著性。一般说来,几次相差不大的实验若是都能保证我们预期结论的显著成立,那么便可以考虑大规模的复制了。这也是社会实验和自然科学所无法比拟的严格性。

Fisher提出的最后一个原则是“区组化原则”,指的是“消除试验过程中的系统误差对试验结果的影响而遵守的一条规律”。这里要说的两个概念就是“随机误差”和“系统误差”,都和“测不准原则”有关系。随机误差大致是说我们不知道的随机因素造成的每一次实验结果的客观误差存在性,而对应的解决策略就是上面说到的“独立重复实验”。“系统误差”则是更多的在结果出来之后我们对其进行测量的时候带来的误差,比如最经典的测长度可能会由于尺子本身刻度不准的问题带来系统误差,即最简单的“仪器误差”。当然,系统误差还包括我们本身实验设计所依赖的理论要求和实验条件的差别,比如“热学实验中没有考虑散热所导致的热量损失,伏安法测电阻时没有考虑电表内阻对实验结果的影响等”,称之为“理论误差”。当然,“个人误差”也是客观存在的,指的是“由于观测者个人感官和运动器官的反应或习惯不同而产生的误差,它因人而异,并与观测者当时的精神状态有关”。区组化原则更多的就是为了消除/减轻系统误差的影响、提高实验的精确度而建立的一条原则。区组化的做法无外乎先把实验对象按照某种特征分组,使各组之内尽量同质,然后在此基础上每组分别随机抽样。这里多少有点和“分层抽样”的思想契合。从我的感觉来说,社会实验中我们对于这一点的强调相对少一些,除非是比如性别决定了实验方式需要区别(比如对丈夫和妻子要采取不用的treatment),要不大多数情况下常见的还是完全随机抽样。我的感觉来说,区组化原则更多的在于treatment的制定是不是完全相同,如果我们需要依赖于某种特质来制定treatment,那么分组再随机抽样就显得更为必要。当然我这里的理解可能和fisher的意思有一些偏差,但是实际中我们确实是要考虑,比如对于教育水平极低的人(甚至不识字)采用亲笔签名的方式来确认某项事情并不一定反映了其真实意愿,不见得有最传统的“按手印”来的有效。这里我更多的是想说区组化原则除了可以作为分层抽样的基础,更多的是一种制定实验手段的时候可以考虑一些实施中的实际困难、灵活应变,以保证在某些区组中不至于出现大规模的系统误差影响实验最终的平均意义上的效果。这更多的是一种事前的警觉性体现,事后往往修正就比较难了,实验不尽如人意也就在所难免了。

OK,今天就简单的回顾一下Fisher的实验设计三原则,感觉这些东西在最基础的统计学中都学过,估计大家也都有把这些作为“重点”概念熟记应付考试的经历,其实刚才很多名词我搜了一下出来的都是XX试题详解。其实“随机误差”“系统误差”这些东西说起来容易,先不论很多人只是为了考试,大多数人学这些概念思想的时候很少有同时确实在动手做实验的,哪怕是物理化学实验,更少有思考实验设计“为什么这样”的机会,很多东西大家都约定俗成了。而到了社会实验,面临的问题就更复杂和多元化,对这三原则自然也会有一些不同的解读和理解,大概也是走出象牙塔之后的一种进步吧。实践出真知,比证明多少次plim a= a或者E(u|x)=0都更有切身体验。除了数学公式的所确保的一致性,在一个实验的实践过程中确实有太多的环节可以导致结果的偏差了,尤其是系统误差。如果对这些可能的因素没有警觉,那么实验的设计缺陷可能进一步导致实验结论的稳健性下降。所以,设计实验的过程更多本身就是一种学习和积累经验的过程,然后这种积累到了一定程度,就会影响到理论的发展和进步吧。科学不就是这么一点点艰难的前进的?虽然经济学或者其他社会科学还称不上实验科学,但是这些思想的引入和考量我觉得还是有益无害的。

Categories
事儿关经济

天才,R会议还有那个小册子

先说说小天才们。今年无意间在Google Reader里面看到一篇枫叶兄分享的日志,是一篇关于庞加莱的几何学的文章(见http://www.eaglefantasy.com/archives/386),虽然已是一年以前的了……之所以突然间对此问题感兴趣,是因为前几日一朋友在博客上的留言(见http://www.loyhome.cn/935.html/comment-page-1#comment-6807),当时说到了P Versus NP,我就很无知加很无耻的继续讨教了下去:

克雷数学研究所悬赏的7个问题之一,哦,不对,现在只有六个了,庞加莱……
可以简单理解成某些经典组合优化问题是否有多项式时间复杂度的图灵机算法
http://en.wikipedia.org/wiki/P_versus_NP_problem

看了半天那个NP和P的问题,感觉好象是算法那边的,大概糊弄了自己一下就放过去了,因为有更感兴趣的千禧年7个悬赏问题。嘿嘿,搜了一下,大致了解了来龙去脉,于是乎对庞加莱更加的感兴趣。我真的是孤陋寡闻到一定程度了,根本不知此人为何大牛,就像前几个月还不知道写僵尸研究的Gelman是统计学泰山一样……没事,亡羊补牢,开始津津有味的八卦起来此人的历史。嘿嘿,在看不懂他研究的是什么的时候,看看传记是最有意思的一件事儿。

然后脑海中刻下了此人的大名,没想到时隔不久就又碰到关于此人的文章,自然要跳过去好好阅读一番。非欧几何我接触的不多,但是断断续续的也对那边的理念有一些了解。最初是高中的时候在张景中院士的科普读物《数学与哲学》里面有了一个印象,而后去年有幸阅读《西方文化中的数学》一书的时候渐渐的建立起来了一个整体的概念。然而看到庞加莱,着实感觉到此人的体系有多么的诱人……

回到题目,其实想说的是这篇博文的作者,也就是宇宙的心弦博客的博主,一位年纪轻轻的小天才。说他年纪轻,是因为他是90后,但是90后这个词儿多少有点奇怪的味道,所以年纪轻轻一词足以。说他小天才,看看他的博客就知道了,从高中开始就接触那么多的物理学,真的让吾等无知之辈汗颜。想当年俺也是狂迷恋天文滴,虽然现在时过境迁,天文大概与我无缘……一直以来有种强烈的偏好,觉得小天才们都是对数学或物理有着超强的领悟力……如果按照我的这个有点莫名的标准,那么此人必可归类于此。上了这么多年学,见过的可以称之为天才的却寥寥,大概加起来也没有一只手的指头那么多……当然不排除我孤陋寡闻的因素。

从这个角度讲,吾等不济之士便从数学一路沦落,弄个应用数学混个颜面——譬如经济学。曾记得高中毕业时,很不好意思的跟数学老师说我去学“文”了,她问我是何学科,我曰经济。她笑了笑,说没事儿,你还是学的数学,只不过是应用数学罢了。当时我还没理解,学经济学的前两年也没理解,到现在隐隐约约知道她当年那番话是多么的有远见。果不其然,无论经济学别人学成啥样,我还是把它大半当作应用数学来学了,因为纯粹就是经济学思想加上数学表述嘛。

再说一件有意思的事儿。第三届中国R语言会议就要召开了,现在已经开始紧锣密鼓地筹备了。统计之都论坛上已经开始部署启动工作,诸位热情高涨,此次有望突破历史。目前在商定会场事宜,诸位有兴趣(承办、建议)的话可以直接杀到该页面(http://cos.name/cn/topic/101426)留言,我就充当一回摇旗呐喊者……

不过说实话这次我并不确定能不能参加,不过大概可以确定的是肯定不会站在讲台上面了,这次只想安安静静的做个观众。当然做观众不代表沉默,因为现在手头一直有一件事儿压着,隔三差五的我也弄一弄,目前已经稍稍有个雏形了,那就是一本关于R和计量经济学的小册子(暂定名曰:Play Econometrics with R)。现在刚刚弄完第二章,打算先内部测试一下(简称内测)听听修改意见,而后会公开的发布一个试读(简称公测)征集大家的看法。这个小册子是打算免费在互联网上发行的,作为COS的项目之一……目前关于这个小册子的一点点信息可以在这里看到(http://blog.cloudlychen.net/beginning-play-econometrics-with-r),具体的发布平台和流程还在探讨中……

Anyway,如果你对此小册子有兴趣,可以加入我们的mailing list(此招感谢Frank兄提醒,借用于此Prof),当此册子完成到一定程度之后你会收到一封邮件通知,大致包括我们更新了哪些内容、更正了哪些错误、计划完成哪些部分。这样一个定时的email通知是为了方便及时得到大家的反馈,让我们这本免费的小册子在大家共同的心血浇灌下更快的成长。目前Mailling List的加入方式暂时只有:

  • 在本文后面留言(只需在email框里填上你的email即可,不用在留言内容中再指明,从而避免spam)
  • 发一封邮件给我:cloudly.chen[at]gmail.com (请把 [at]替换成@)

暂时只能这样麻烦大家,当然待具体的流程完善后,我会进一步改进订阅方式和反馈系统。

p.s. 最后补一句:人生最悲哀的事儿莫过于在网上搜一个问题,却发现搜来搜去列在google前面的结果都是来自自己的博客……FAINT!

Categories
网络新发现

一幅漫画

不废话了,看图,来自Phd Comic (因Flickr不幸牺牲,暂时放在国内的yupoo上了,各位可以反馈一下速度)。

一下子就想到高涛、李程在R会议(演讲稿见这里)上面提到的“视觉欺骗”等等报刊杂志滥用统计学了。当然,yihui兄对此问题貌似也是深恶痛绝(原文找不到了,大概曾经写过吧)。

另,过年期间每周例行的日志就不写了,免得总是在流水帐。

Categories
事儿关经济

统计学和计量经济学的神奇?

我又要从方法论上说事儿了。关于计量经济学的应用,着实有一种“泛滥”的感觉。尤其是在前段时间和一些同学争论“格林兰因果检验”的时候,对那种“把统计检验结果奉若至宝”的态度实在是感到心痛。这种检验也就是摊上了一个好名字,最多可以否定一下因果关系(这还有待商榷),哪能作为肯定的依据?

这两天和Taiyun WeiYihui两位同学交流甚多,他们都是统计学专业科班出身的,可谓对于统计学的认识颇深。让我这么一个连本专业经济学都还没出师的对于统计、计量的看法和认识深入了很多。确实,计量只是一个工具,不能替代真实的世界中的因果关系(causal-relationship),虽然很多计量经济学家都在热衷于这件事儿。

到底,统计学和计量经济学应该在经济学分析中扮演什么角色?

下面是Taiyun Wei同学不辞辛苦整理贴给我的东西:

-------------------------------------以下引用其原文-------------------------------------

只是统计上的因果,能否定因果关系,却不能反过来支持因果关系。

我之前也这么认为,但是我目前的看法是:统计上的因果,即不能否定因果关系,也不能支持因果关系。之所以说不能否定因果关系,是因为实际条件可能错 综复杂,相互影响、噪声影响可能很严重。还有即便是统计方法,可能不同的方法得到的结果都是不一样的,有的支持有的不支持,这时候应该怎么选择呢?

下面是 我和朋友们的一些讨论,不当之处尽管批评:

  • 我觉得现实生活中的因果关系不可能从数学或者统计分析中得到,因果关系是一种很强的关系,只能通过对具体问题机理的分析、 验证才能确定,单纯从数据来看,很不安全。计量经济学中有个著名的granger因果检验,我觉得它的局限性很大,但也算是没有办法的办法了。我的基本统 计观是:实体科学为主,统计分析为客。统计永远是为实体科学服务的,固然十分重要,但不能反客为主。——魏太云
  • 目前学界的结论是,部分因果关系是可以推导出来的,当某些条件符合的时候
    有本非常经典的书,叫 《caustion,prediction and search 》,这里第一章就讨论到这个问题。你有兴趣的话可以去看看。当然,这些条件很容易就被人攻击。比如,有一个条件是,所有的variables of the system should be included or measured。这就是说,如果某一个变量的数据无法取得的话,那么从这个相关矩阵中找到的因果关系可能就是错的。——黄兄
  • 真正的因果关系,应该是排除宇宙中(或者一个更大的未知全集)所有其它变量的影响,看剩下的两个变量是否有时间上的先后必然关系。这样一来,太阳黑子、宇 宙射线、外星人、植物释放的氧气、到COS论坛注册的人数、蝴蝶是否扇动了翅膀等都应该纳入回归方程……计量经济学家如何解决这个问题呢?(很不幸,格兰 杰因果检验的横行似乎把原始问题掩盖了
  • 我对计量经济学的意见很大,以至于后来彻底放弃了这方面的学习,以上因果关系的问题便是原因之一。
    当然我不否认他们很认真,他们付出了很多努力,但如果是我的话,我不会钻进这个角落,我会用脑子(用心理学、经济学、社会学等)去验证因果关系,而不是用数学推导。有时候我觉得统计和量化就有点“过犹不及”的意思,导致我们训练出一批“有知识、没常识”的数学家。——谢兄
  • 本科时候读Wooldridge中级计量的书,觉得比Weisberg的应用线性回归写的好。当时只是觉得他对于 ceteris paribus(Rubin曾讨论过这个假定与其理论的关系)得解释很深入。最近在听Chen S.X老师计量专题的同时细细的看了Wooldridge高级计量书的某些细节,才恍然大悟:原来计量经济学家一直都在做causal inference。

    翻译错误:不是“房间”,是“月亮”!感谢Yihui
  • 这种说法不是没有根据的!Wooldridge在Econometric Analysis of Cross Section and Panel Data开篇就是“因果关系与其他条件不变分析”,阐释了计量经济学对于因果关系的关注。在书的Chaper 18, 专门介绍了Rubin的虚拟事实模型,这在统计学的教科书中几乎是找不到的!不过糟糕的是,中文翻译者根本不懂因果推断,把ignorability翻译 成“不可知性”,差之毫厘,谬以千里!在章,Wooldridge还介绍了Propensity Score以及Principal Stratification(Wooldridge写书的时候Frangakis和Rubin的文章还没有发表,所以后者没有被明确的提出),这些都是 因果的核心概念。
    老板认为,计量经济学讨论的endogeneity和exogeneity,就是流行病学讨论的有无confounding的问题。知道了两者的关系,则茅塞顿开。
    至此,我除了佩服老板的统计直觉以外,还不得不对这些关注因果的计量经济学家表示充分的敬意,因为要想从observational data推断因果,真是难于上青天!据说,Hume认为,这是不可能的。——丁兄

说这些话不是说统计无用,相反,统计很有用,但要具体问题具体分析,用得合适、恰当,而不要盲目套模型。但怎么用得恰当,可是很大的一个问题。正如号称经济学家的人那么多,但真正会用的有几个?

------------------------------------引用结束-----------------------------------------

看完之后,我的心里颇为一沉,印证了很多我在现实中隐隐约约体会到的对于计量经济学应用(尤其是初学者滥用)的疑惑。虽然其中某些观点稍显偏激,但是在现实中的事实是,太多的急功近利的行为导致了计量经济学、统计学的滥用。经济学专业的学生不去关注经济规律本身和客观的物质世界,只知道一头埋在统计数据里面企图挖掘出来什么鲜为人知的关系。这说明了人们的思考角度已经不是事物本身,而实证检验的英文原文empirical指的是"经验主义",而不是中文那般美化的仿佛就是现实中的必然规律似的。太多人忽视了统计应用的前提假设,胡乱把一堆例如结构方程模型(SEM)和数据包络(DEA)的东西随便应用到自己的分析中去,而不去严格的证明为什么可以这么用,为什么不会导致结果失真(或许他们也根本证明不了、没有意识去证明)。到这里,我不得不悲哀的说,这已经不是一个方法论的问题,而是彻底的世界观出问题了——认知世界怎么能全部依赖统计

然后看了Yihui写的一系列文章(三篇,针对低年级统计学专业学生的),外加一两篇分析。网址分别列出,只挑选其中部分内容转载。

----------------------------------------引用开始------------------------------------------

我们先看最简单的一个例子:t检验。我想只要是个学统计的必然都知道这个检验,它是用来检验位置参数的,比如单个样本的 均值是否为0,两样本的均值是否无差异,等等。我们也都知道这个线索:t检验需要t统计量,而t统计量的来历是独立的正态随机变量与卡方随机变量平方根之商(卡方要除以自己的自由度),实际应用中,这里的分母往往就是样本标准差。在t分布被Gosset发表之前,人们往往只能用总体标准差作为分布构造标准 正态随机变量来做检验和估计,Gosset的t分布伟大贡献在于,我们可以用可知的样本标准差替换不可知的总体标准差而且构造t统计量,这下就让人放心多 了,因为我们总是畏惧未知的总体(或者未知的参数),而且在小样本情况下更为畏惧——样本量太少我们就更不敢对总体标准差作出估计。

Gosset的确帮助我们解决了个大麻烦,然而t检验仍然要假设总体服从正态分布,这个麻烦可不好解决。可能马上就会有人说,分布也是可以检验的啊。没 错,是可以检验,比如著名的KS检验;问题就在于,统计分布检验的备择假设太大,我们做假设检验只能有把握得出“样本不服从某种分布”,而不能说“根据检验,样本服从某种分布”:因为犯第一类错误的概率可以控制,而第二类错误的概率只有鬼才知道(不干鬼的事,鬼也许也不知道)。

第二个例子我想稍微说一点关于抽样调查中的统计推断,这里面的统计推断往往比较简单,大致原理就是用样本均值估计总体均 值,样本方差估计总体方差,为什么能这样呢?因为这些估计量往往都是无偏估计,不妨仔细想想“无偏”的意思:期望等于真值;注意不是估计量等于真值,那期 望是什么意思呢?通俗来讲,期望就是一个随机变量按照它的分布不停地变变变,变了无数次之后我们看它在“平均”意义下取值为多少,当然抽样工作不可能一遍 一遍无穷做下去,我们一般仅有一次抽样,得到的估计量也就只有一个值,这一个孤零零的估计值,到底离真实值有多远?只能再去问问鬼。此时可能又有人会说, 我们不是还有方差吗?不是可以做置信区间的估计吗?没错,书上都是这么写的。方差有什么用呢?书上说了,方差是度量离散程度的,试着想一下,告诉你一个随 机变量均值为100,方差为1000,你能想出所谓的“离散程度”是怎样的吗?恐怕也难以想象,所以除非方差为零,否则我一向觉得它在描述统计中并没多大 实际意义(它的确是刻画离散程度的,但怎样叫大怎样叫小?没有标准)。再看置信区间,要谈置信区间一般也就不可避免要用到分布,于是假设条件又来了,一方 面是总体独立同分布,另一方面样本量足够大,这样才能根据中心极限定理构造正态分布随机变量。显然,两个问题来了:抽样能保证独立同分布吗?怎样的样本量 才算作大?又是不好回答的问题。例如分层和整群抽样,很能让人怀疑样本的独立性;而大样本的问题,从数理统计角度(中心极限定理)来看,必须是样本量趋于无穷,显然这是不可能的,若样本量趋于无穷了,那我们还抽什么样?

-我们的下一代必是男孩!-但是他们是选择样本!

其实,关于统计模型的这种质疑,也不是机器学习出现后才开始有的,以前看Gujarati的"Basic Econometrics"一书,曾经读到一段很有意思的话:

Economists' search for "truth" has over the years given rise to the view that economists are people searching in a dark room for a non-existent black cat; econometricians are regularly accused of finding one.
-- Peter Kennedy, A Guide to Econometrics, 3d ed., The MIT Press, Cambridge, Mass., 1992, p.82

经济学家们“在一间黑屋子里找一只本不存在的黑色的猫”,而计量经济学家往往会宣称他们找到了一只这样的猫。听起来很可笑,但从某种意义上来讲,我们何尝不是在做这样的事情?

----------------------------------------引用结束------------------------------------------

原文:谢益辉:关于统计推断的一些惴惴不安

这一篇可谓是最通俗的说明了他的所有观点的,此外还有几篇文章:

个人认为都是非常值得一看的。不再直接粘贴过来原文,敬请直接移步。

注,漫画英文来自:http://myhome.iolfree.ie/%7Elightbulb/Research.html 由我翻译为中文并直接修改图片。