Categories
事儿关经济

数据挖掘 vs 计量经济学 (Data Mining vs Econometrics)

先说一下免责声明:我在数据挖掘 (data mining)和计量经济学 (econometrics)两方面涉猎都不算深入。今天斗胆写这么一篇文章主要是最近在看data mining的东西,有一些小小的体会,故记录下来以备后用。

Data mining是最近几天热起来的东西,而由于其中文翻译又可译作“数据挖矿”,所以做data mining的人有的时候也被戏称为“矿工”。Data mining和近十几年的信息化潮流密不可分——若没有计算机在各行各业的大力应用,又怎么可能会有这么大规模的数据用来分析呢?简单的说,data mining有点“透过现象看本质”的味道,在大家还都在“雾里看花”的时候,data mining致力于“拨开云雾见月明”。当然一个最经典的例子就是“啤酒和尿布”,即经过统计发现男士购买尿布的时候也容易购买啤酒,所以把他们两个放在一起可以很有效的提升啤酒的销量。所以从我个人的浅薄理解来看,data mining更多的就是利用计算机高计算性能把大规模数据一一的进行模型匹配,然后按照我们制定的标准来返回最优的模型。

至于econometrics,它又想回答什么问题呢?我虽然一路经济学出身,计量却只是当工具学的,从未研究过怎么开发工具,这里只从应用计量经济学的角度来说说我看过的研究。嗯,我们可以说在计量经济学里面总是在做“回归分析”(regression analysis),即给定一个感兴趣的变量,把其他的可视作影响因子的东西扔到方程右边。从广义矩估计的角度来说,即在一阶距为0的前提下(小样本下无偏)、最小化二阶距为目标(OLS方法,欧几里德空间内的距离按||·||2来算)进行拟合。当然简单的回归一定是有问题的,得出的结果最多能说明两个变量之间的“(线性)相关性” (linear correlation)而无法提供进一步的原因:到底是由X导致了Y,还是有其他的因子同时作用于X和Y从而他们显示出一致的变化趋势。从经济学的角度,我们当然更感兴趣什么东西导致了Y,所以在大样本下从寻找一个consistent估计量的角度出发,我们一般要求X是外生的,要不就需要借助IV等其他方法了。如果所有的方程右边的变量都是外生的,那么我们就可以放心的说这里面有“计量上的因果关系(causality in econometrics,这里定义明确一点要不又要被Yihui兄等统计学出身的批判了)”。所以说到这里,我可以小心翼翼的说,econometrics毕竟是和经济学紧密相关的,所以我们感兴趣的是变量之间的“谁导致了谁”的关系,而寻求这种答案的途径之一就是让足够的数据来说话。从这个角度来说,我更倾向于把计量作为检验 (empirical check) 经济理论的一个工具。至于我们怎么可以保证X的外生性(exogeneity),那就是要具体问题具体分析了。两种主流的观点是要么依据一个经济理论中的structural的模型来进行估计,从而什么是外生的一目了然;要么做(随机)(田野)实验 (randomized field experiment)。我感觉近两年两者结合的趋势越来越多,毕竟做实验的那群人不是什么都不知道就去试一通,他们很多时候也是依照现有的经济理论进行随机化实验设计的。从这个角度来说,实验更是检验理论的一种途径了,先不论它可以在什么程度上回答一个(经济学)理论问题。

那么数据挖掘和计量经济学直接是冲突的、还是互补的、抑或其他呢?简单的一路看过去数据挖掘的介绍,譬如Wiki,大多数时候看到的是从计算机或者统计学出身的人写出来的方法论上的东西,缺少有人直接论及这东西和经济学是怎么结合的。我也只是粗粗的搜了一番,找到的只有一篇简短的文章:Data Mining in Economic Science,by Ad Feelders。先引用一下它开头引用的一段话:

Let neither measurement without theory nor theory without measurement dominate your mind, but rather contemplate a two-way interaction between the two, which will your thought processes stimulate to attain syntheses beyond a rational expectation!

Arnold Zellner

大意就是说“我们不应一味迷信数据不顾理论,但也不宜欢迎没有现实世界数据支撑的理论”。这篇文章不长,感觉作者可能是更偏向宏观经济学(macroeconomics)分析,所以例子都是宏观中经典的譬如体现凯恩斯主义的IS-LM模型。作者的观点是,很多经济理论并没有直接的给出一个特定的模型设定,所以数据挖掘的方法可以用来选择最优的模型(依稀记得某宏观经济学家曾在上世纪90年代就一一试过1700多个线性模型……当然现在看来他的分析难逃内生性问题的争议,不过这大概是我所知道的最早的和数据挖掘思想相近的尝试吧)。后面还提到时间序列分析VAR模型(vector auto-regression),这个我有点不喜欢VAR的思想,所以不再多做评议。

回到那个啤酒尿布的例子,我想到的是,确实,这个统计结果出来之后经济学家可以很容易的解释“为什么”,但是经济学理论却难以告诉我们在某个(微观)实例中到底反映这种理论力量的“是什么和什么”。与我来说,经济学的 explanatory power已经很强大,但是具体到一个可以操作的层面还是需要其他技术来支撑的。如果我们可以通过数据挖掘在找寻可能存在关系的两个变量(此例中啤酒和尿布),那么就可以依据经济学理论进行可能的解释,然后还可以进一步设计随机对照试验,分析试验结果则是计量的用武之地了。

嗯,这大概是我刚刚接触数据挖掘的一点感触,不知道几分正确几分错误,或许若干年后回头看就会觉得有些幼稚了。最后想说的是,从我个人的观点来说,经济理论能告诉大家的更多的是“为什么”,在这个很general的基础上,我们可以进一步尝试的去回答在某个例子中到底“是什么”。最后无论使用线性模型进行回归分析还是其他的模型设定都好,数据挖掘技术可以在这个方面推进工作的进展、帮助我们更好的理解数据和读懂数据、在浩繁的数据海洋中提取最有力的信号,剩下的可能就是经济学进行分析的工作了(当然我是从纯经济学角度出发说这个话的)。从这个角度而言,数据挖掘和计量经济学更是一种相互裨益的感觉,前者更多是一种思想吧~矿工嘛,先挖挖试试看。

[注:我只是从自己的所学出发随便说说,其间必有偏颇之处,还望各位海涵及不吝拍砖!]

Categories
互联网产业观察 经济、IT观察与思考

经济学不是万能的

今天很开心,在北京停留两日的决策还是对的,见了两个非常有趣的人。其中一个是在读Ph.D,专做网络经济的;另一个是一个公司的team leader,谈了一些关于产业界的事儿。我现在是对于产业界格外好奇,特别想知道的是到底经济学应用到什么程度了。

重点说说第二个,至于哪个公司,没有征询过人家同意就暂时不明说了。我们大致说的是跟经济学里面的拍卖理论有关的东西,而且是拍卖理论在现实中的具体应用。比较出乎我意料,他的问题居然是“如何从一个均衡点跳到另一个均衡点”。呃,首先,我一直不知道原来在实践中是有多个均衡点的,一般经济学模型在模拟竞争的时候由于单调性等一系列假设,均衡很多都是唯一的(最简单的参见古诺模型);其次,就算是有多个(收敛的)均衡点,想从一个跳到另一个(类似于某经济增长模型中的“低水平陷阱”,或者最简单的博弈论中的“box opera”模型),对外来冲击的要求也是比较高的;最后,也是我更倾向的一种观点是,这个均衡不理想(次优)可能是由于非理性预期导致的。然后,大致的思路就是,要证明均衡不唯一->确定不唯一的原因->针对原因做一个外部冲击或者政策调整。当然,从实践层面来说,只有数据能告诉我们真理(能做实验就再理想不过了)。计量经济学的用武之地啊!Frank兄你赶紧毕业来创造价值吧!(顺便我还把Michael老师卖了-嗯啊,您不是最近刚被MS录用了一篇这方面的文章么?我就姑且卖了一通。您能创造的价值肯定很大啊,不过这个市场需要培育,大家对于经济分析能带来的价值还是有点小疑虑的感觉。)

我拍卖理论学的只限于高微课堂上那些,大致也只是把经典的拍卖方式过了一下(纯属找理由为自己不全面的分析开脱,哈哈);后来在motta的竞争政策课上,多少倒也涉及到了一点点bid的东西,但是看来理论模型还是把现实大大的简化了(话说,当他说到他们也有点“政府”的味道在引导/规制这个市场的时候,我瞬间觉得学的那堆竞争政策/反垄断的东西可以派上用场了。纯市场经济干预啊,还有各类竞争市场的分化机会,好有意思。不过稍稍有点不理解为什么他们有点倾向于培养几个大寡头-大多数经济理论中都是喜欢竞争者越多越好的,最好还势均力敌,那样会比较难以坚守“同谋”策略。这大致是一点实践和理论、长期和短期的不同之处吧)。呃,让我大有种“路漫漫其修远兮,吾将上下而求索”之感。不过,顺带想说的是,经济学绝对不是万能的。我虽然很开心的看到国内有远见卓识的一些公司在试图引入经济学分析,到底经济学能应用到什么样子还是个问题。我隐隐约约觉得,如果这家公司真的想在这里舒舒服服的利用经济学创造价值,可能它真的需要一个Ph.D...当时他问我到底master和Ph.D有什么区别,如果只说econ的话,国内的我不知道,美国的master参差不齐,欧洲的某些master项目还是有一些质量的,只是愿意离开学校暂时不读Ph.D的可能寥寥(除了像我这种脑子暂时抽风,就是不想读了,又不想进投行之类的人...)。当然我这里有给我自己的学校做广告之嫌,不过我们这一年上的就是Ph.D第一年的课确实属实,所以和Ph.D的差距就是研究经验和一到两年的topics级别的课程(还是可以归结为研究经验……)。

嗯,可能最近还会回北京一趟,如果能和他的团队一起聊聊的话,看看实践中到底有什么困难、有什么用武之地。哎,我发现一聊到经济学的应用我真的是挺兴奋的哎,学以致用哈哈!

最终的感觉就是,产业界其实真的挺有趣的……没想到这次回国可以见到这么有趣的人并与之详谈。大概很多学经济学的人都会很乐意看看经济学的应用到底有多大的价值吧,拍卖理论又是最直接可以见效的。美国很多产业里面都有经济学背景的人在做事,而现在看来国内的需求也越来越大。也就是说,不去银行保险证券那些金融机构,经济学也是越来越被认可的。意识到这一点,我真的很开心啊。没想到这次回国收获这么大,看来是有机会可以检验一下自己的经济学知识了。话说,下周去上海一趟,不知道来自于另外一个产业的问题和需求又是什么呢?被某人说的总是让我心痒痒的很,希望不是对经济学的过高期望啊。真的,真的,经济学不是万能的,它有自身的局限的;此外,我只是个master,有些活真的可能是Ph.D更能胜任……哈哈,还是先谈过再做个估量吧,我心里总是有点悬着的。

Categories
事儿关经济

从理解世界到政策分析——经济学角色在变化?

一直觉得,经济学最引人入胜的时期就是“初逢”。几条简单的曲线勾勒出世界的美好,然后简单的分析让人眼前一亮,世界豁然开朗。倡导这样观念的大概 不得不算上张五常老先生,看看他写的散文集或者《卖桔者言》,就知道这个世界是怎么可以被经济学简单的分析的——某种程度上,经济学显得过于强大了。

今天去听了UPF的一个recruitment讲座,是MIT的Dina Pomeranz,讲的是No Taxation without Information。 大概就是说怎么设计一种实验来使得上下游厂商之间难以相互勾结、逃增值税。去听这个讲座一方面是那天和director谈话的时候他提及了这个讲座,另一 方面确实是对social network感兴趣,而这个上下游厂商之间自然而然的形成了一个network。不过,这里想说的是,今天去听的时候那个震撼啊~毫无悬念的,我又成了 唯一一个厚着脸皮去蹭讲座的master,剩下还有两个Ph.D,然后一屋子满满当当的全是亲爱的professors们。看到Gali, Ciccone, 还有一堆给我们上过课的老师……在整个讲座的过程中,氛围也是比较积极的,一场没有硝烟的战争……

当时我就在想一个问题,经济学发展到现在,还仅仅是给我们提供观察世界的一个角度而已么?可能受周围一个原来做public health (health economics)的同学潜移默化的影响,我现在越来越关注经济学之于政策分析。原来确实是对计量有种种偏见的,但是当看到计量在政策分析量化之时的巨 大作用,确实也不得不感慨一番了。在development 和labor这两门课之中,整天就在讨论各个项目的效果评估之类的,确实也蛮有趣的。某种程度上,现在的经济学已经不仅仅是一种分析世界运行方式的工具 了,它跟政策制定的联系或许会越来越紧密。

我是感觉这一年其实受的影响还是蛮大的,回头看原来的对于经济学的看法确实是有些天真了。原来很喜欢理论分析,喜欢建立模型时候的优雅,而现在更关 注经济学在应用之时到底能够发挥多大的威力。有点可爱的是,原来多多少少是有些抵触计量的,现在整天在做的却是跟计量离不开。虽然还在警惕着自己那个“黑屋黑猫”的故事,但是秉承着一种“想找什么的缺点首先要真正的理解它”的思想,还是在不断的深入接触着计量。渐渐开始理解做应用计量的有的时候并不是关注方法本身或者预测的准确度,而更多的是提供一点政策制定时候的方向指导和佐证。对计量这种观点的转变,或许是我以前万万没有预料到的。

今天又连续听了8个小时课,而且是思维在跟着老师走而不是被动灌输似的听,所以实在是累得很,也终于支持不住又一次在高宏课上不幸睡着 了……Gino童鞋讲话永远是一个调实在是容易让人不幸睡着,更何况现在在折腾动态规划汉密尔顿函数之类的无聊东西。我不知道这样旁听+选的课每周那么多 课时的日子还能坚持多久,但是真的是觉得很喜欢这些课,所以暂时还是挺着吧……

哦,最后补充一点好玩的,是上博弈论的时候想到的。最近在讲“correlated equilibrium”这个东西,概念上还是蛮好玩的,大概意思就是引入一个具有第三方公信力的个体,然后传递信号来影响策略选择的过程——这样 player做决策的时候就不是相互独立的了,而是相关的了,因此算各种(混合策略)情况概率的时候就不是简单的相乘了。他用了一个chicken的例 子,就是典型的2×2博弈,也没啥特别好说的。我只是一刹那间突然想起来三国中的一个典故,那就是吕布的“辕门射戟”。这个故事大家应该都耳熟能详了,大 意是:

吕布说:“把画戟插到辕门外一百五十步地方,如果我一箭射中画戟的枝尖,你们两家就不要打了。如果我射不中,打不打我就不 管了。”纪灵希望射不中,刘备希望能射中。……只听"嗖"的一声,吕布大喊:"着!"那箭不偏不倚,正中画戟的枝尖。就这样,吕布以他精湛的箭法平息了一 场厮杀。

这里我们可以把吕布理解为那个发送信号的人,他已然决定了刘备和纪灵两家需要选择的策略(当然这里因为吕布太强大了,刘备和纪灵除了遵守吕布设定的 规则之外别无选择),然后用一个信号直接决定了最终的outcome。当然,我们很难说这是个均衡,但是我想只要吕布在那里,这永远会是一个均衡吧……不 过这些都是后话了。

Categories
我的生活状态

妥协……

原来在山大的时候,尤其到了大三,一切的概念就是“好多东西都还没学,抓紧时间补啊”,于是乎可以一学期修掉40+学分(一学分=一周一小时,也就是说理论上我一周要上40+小时的课),还不算那些只能旁听不能注册的研究生课程……大概是习惯了大三那种“地狱”似的生活,对于课程,永远是一种“贪婪”的状态。当然,我这么拿本科的课和研究生的课相比是不公平的,要知道本科的课大多是可以逃掉的——当然,我作为一个理性经济人,逃课的理由往往是出于利益最大化的考虑,某些老师的课实在是哄小孩……这也说明课程质量良莠不齐的现象很严重啊。

然后跑到这边来,习惯性的想多学一点。上学期没什么选择,只能两门必修顺带修了数学,这学期就延续这个趋势选了4门课。呃,然后,顺理成章的,我们亲爱的项目director就开始额外关注我了。第一周试听,OK,他也没说啥。这周,我正想说已经下定决心选这四门(高宏、高微、计量、发展经济学)的时候,他就开始劝我了。其实我也知道,想在这四门中存活不容易,高宏高微就足够折磨死人了,加上一个发展实质上是博士的课程,我就会活得更加的痛苦……我不知道自己是不是有一点点自我折磨的倾向,总是不想给自己机会让自己闲下来。要知道,我好不容易下定决心从十几门课中选了这四门啊!我容易么?然后,还要忍痛割爱掉一门,唉。

最后,大概会把高微暂时放下吧。真的是,我万万没想到跑到UPF来了之后真的开始成学宏观了,当年那个对宏观的种种漠视啊,对计量的种种偏见啊,对发展的种种淡然啊,对微观的种种热爱啊……一切都变了。真的开始学会了妥协,还有善待自己。毕竟,按照director所说的,没有人曾经修过4门课,还是这样比较难的4门。算了,我又何必为难自己……

只不过,这样说来第三学期就真的要选两门课了。不知道能不能顺利的生存下去。想多花点时间在西班牙语上,还想好好的写学期论文……不过,貌似这一切就都成镜中月水中花了。妥协……

我在想,我应该不算是一个不懂得享受生活的人吧?只是当周围若干好友都在问我“why are you torturing yourself? ”的时候,我想确实是,呃,可能从他们的角度来看,太多了。我一直想说,在中国,这种节奏和压力都是为了生存啊,几亿人口的国家啊,想做得更好只能多忍受一些痛苦。看来,这些发达国家长大的孩子们果然在过去的二十几年中过得太幸福了。

算了,既然人在西班牙,就学会妥协吧。并不是什么大不了的事儿。从我的观念来说,就算不选那些课,高微和labor还是会去旁听的……虽然director建议我连旁听都不要去了……话说我还是蛮尊敬这位director的,首先是学术上的成就摆在那里,足以瞻仰;其次是人很好,肯花时间在我们学生身上。像这就已经是我们第二次谈话了,而且足足谈了一个小时,还是他主动email我的……想想在国内的时候,有几个老师肯花时间在学生身上啊,除非本来就很熟,或者是帮人家干活的,像当年我导师那样的真的不多见了……师者,传道授业解惑也,已然消失的无影无踪了。或许这么说有些不公平,但是确实是,我感觉很多教授关心的是人际啊、利益啊这些实际的东西,而并不真正关心教学,更何况学生?中国不是有句话叫做“师傅领进门,修行在个人”么?

有趣的是,从UK或者US过来的同学们多多少少抱怨说在这边接受的老师“面对面”的指导太少了……而我的感觉是,已经很满足了。原来的时候,总在给自己灌输的概念是“自学”,很多时候只能依赖自己。真的是,差别好大……我真的不知道是应该庆幸来到了这里、和那些受过优质教育的孩子们同台相处,还是应该悲哀的发觉过去的若干年已然被种种浪费了呢?算了,积极一点吧!珍惜现在手中所有的,总比光盯着月亮却总也得不到强。

Categories
事儿关经济

数理经济学的发展综述

这个嘛,是一个作业……当然也就是“数理经济学”这门课的作业。老师很聪明的知道我们会去网上抄,所以干脆就给我们这么一个不得不抄的题目,还要求手写……可是手写也得先有的抄才行啊,所以还得先搜搜资料。

为了方便大家,我就把搜到的一些有价值的文献附于此,估计够抄上十几页稿纸的了。因为(中文)文献有限,所以大家一定要删删减减取其精华而抄之,关键处记得注明出处~

我觉得有用的文献如下(排除了数量经济学的东西,我认为后者是“数理经济学+计量经济学”):

  • 刘凤良. “数理方法在西方经济学中的应用与发展— — 评高山晟的 《经济学中的分析方法》 [J]” . 中国人民大学学报(2002):4.  (本文我感觉就是阿罗那篇文章的中文翻译版……更好抄。)

  • 刘向晖.“数理经济学史研究”. 西北大学博士论文(2001)(我找到的唯一一篇专门研究这个问题的博士论文,真的是博士论文,好长啊~我只下了他的绪论那章抄了抄就觉得足够了)
  • K. J. Arrow, M.D. Intriligator. HISTORICAL  INTRODUCTION. Handbook of Mathematical Economics, Volume 1。(这么经典的东西怎么能够不抄呢,要知道handbook系列可是撰写论文综述的绝佳材料,当然也是开始研究一个问题寻找高质量参考文献的绝佳材料)

其中前两个是中文的,最后一个是英文的。照例把这些PDF版都扔在google site上面了。当然你也可以自己去CNKI搜搜然后下下来。

还请自行移步:http://sites.google.com/site/loyhome/mathematical

其实越看这些发展,越觉得就是整个经济学发展史的一个缩影,甚至是近代科学技术发展史的一个缩影。最后附上一张自制的流程图,大家可以大略的扫一眼,帮助理清脉络。建议对经济学发展历史感兴趣的诸位,还是去看看《经济思想的成长(The Growth of Economic Thought)》(参见:[cref %e6%b5%8e%e5%8d%97%e7%9c%9f%e7%9a%84%e5%be%88%e7%83%ad4th-week-june])一书吧!