Categories
事儿关经济

数据挖掘 vs 计量经济学 (Data Mining vs Econometrics)

先说一下免责声明:我在数据挖掘 (data mining)和计量经济学 (econometrics)两方面涉猎都不算深入。今天斗胆写这么一篇文章主要是最近在看data mining的东西,有一些小小的体会,故记录下来以备后用。

Data mining是最近几天热起来的东西,而由于其中文翻译又可译作“数据挖矿”,所以做data mining的人有的时候也被戏称为“矿工”。Data mining和近十几年的信息化潮流密不可分——若没有计算机在各行各业的大力应用,又怎么可能会有这么大规模的数据用来分析呢?简单的说,data mining有点“透过现象看本质”的味道,在大家还都在“雾里看花”的时候,data mining致力于“拨开云雾见月明”。当然一个最经典的例子就是“啤酒和尿布”,即经过统计发现男士购买尿布的时候也容易购买啤酒,所以把他们两个放在一起可以很有效的提升啤酒的销量。所以从我个人的浅薄理解来看,data mining更多的就是利用计算机高计算性能把大规模数据一一的进行模型匹配,然后按照我们制定的标准来返回最优的模型。

至于econometrics,它又想回答什么问题呢?我虽然一路经济学出身,计量却只是当工具学的,从未研究过怎么开发工具,这里只从应用计量经济学的角度来说说我看过的研究。嗯,我们可以说在计量经济学里面总是在做“回归分析”(regression analysis),即给定一个感兴趣的变量,把其他的可视作影响因子的东西扔到方程右边。从广义矩估计的角度来说,即在一阶距为0的前提下(小样本下无偏)、最小化二阶距为目标(OLS方法,欧几里德空间内的距离按||·||2来算)进行拟合。当然简单的回归一定是有问题的,得出的结果最多能说明两个变量之间的“(线性)相关性” (linear correlation)而无法提供进一步的原因:到底是由X导致了Y,还是有其他的因子同时作用于X和Y从而他们显示出一致的变化趋势。从经济学的角度,我们当然更感兴趣什么东西导致了Y,所以在大样本下从寻找一个consistent估计量的角度出发,我们一般要求X是外生的,要不就需要借助IV等其他方法了。如果所有的方程右边的变量都是外生的,那么我们就可以放心的说这里面有“计量上的因果关系(causality in econometrics,这里定义明确一点要不又要被Yihui兄等统计学出身的批判了)”。所以说到这里,我可以小心翼翼的说,econometrics毕竟是和经济学紧密相关的,所以我们感兴趣的是变量之间的“谁导致了谁”的关系,而寻求这种答案的途径之一就是让足够的数据来说话。从这个角度来说,我更倾向于把计量作为检验 (empirical check) 经济理论的一个工具。至于我们怎么可以保证X的外生性(exogeneity),那就是要具体问题具体分析了。两种主流的观点是要么依据一个经济理论中的structural的模型来进行估计,从而什么是外生的一目了然;要么做(随机)(田野)实验 (randomized field experiment)。我感觉近两年两者结合的趋势越来越多,毕竟做实验的那群人不是什么都不知道就去试一通,他们很多时候也是依照现有的经济理论进行随机化实验设计的。从这个角度来说,实验更是检验理论的一种途径了,先不论它可以在什么程度上回答一个(经济学)理论问题。

那么数据挖掘和计量经济学直接是冲突的、还是互补的、抑或其他呢?简单的一路看过去数据挖掘的介绍,譬如Wiki,大多数时候看到的是从计算机或者统计学出身的人写出来的方法论上的东西,缺少有人直接论及这东西和经济学是怎么结合的。我也只是粗粗的搜了一番,找到的只有一篇简短的文章:Data Mining in Economic Science,by Ad Feelders。先引用一下它开头引用的一段话:

Let neither measurement without theory nor theory without measurement dominate your mind, but rather contemplate a two-way interaction between the two, which will your thought processes stimulate to attain syntheses beyond a rational expectation!

Arnold Zellner

大意就是说“我们不应一味迷信数据不顾理论,但也不宜欢迎没有现实世界数据支撑的理论”。这篇文章不长,感觉作者可能是更偏向宏观经济学(macroeconomics)分析,所以例子都是宏观中经典的譬如体现凯恩斯主义的IS-LM模型。作者的观点是,很多经济理论并没有直接的给出一个特定的模型设定,所以数据挖掘的方法可以用来选择最优的模型(依稀记得某宏观经济学家曾在上世纪90年代就一一试过1700多个线性模型……当然现在看来他的分析难逃内生性问题的争议,不过这大概是我所知道的最早的和数据挖掘思想相近的尝试吧)。后面还提到时间序列分析VAR模型(vector auto-regression),这个我有点不喜欢VAR的思想,所以不再多做评议。

回到那个啤酒尿布的例子,我想到的是,确实,这个统计结果出来之后经济学家可以很容易的解释“为什么”,但是经济学理论却难以告诉我们在某个(微观)实例中到底反映这种理论力量的“是什么和什么”。与我来说,经济学的 explanatory power已经很强大,但是具体到一个可以操作的层面还是需要其他技术来支撑的。如果我们可以通过数据挖掘在找寻可能存在关系的两个变量(此例中啤酒和尿布),那么就可以依据经济学理论进行可能的解释,然后还可以进一步设计随机对照试验,分析试验结果则是计量的用武之地了。

嗯,这大概是我刚刚接触数据挖掘的一点感触,不知道几分正确几分错误,或许若干年后回头看就会觉得有些幼稚了。最后想说的是,从我个人的观点来说,经济理论能告诉大家的更多的是“为什么”,在这个很general的基础上,我们可以进一步尝试的去回答在某个例子中到底“是什么”。最后无论使用线性模型进行回归分析还是其他的模型设定都好,数据挖掘技术可以在这个方面推进工作的进展、帮助我们更好的理解数据和读懂数据、在浩繁的数据海洋中提取最有力的信号,剩下的可能就是经济学进行分析的工作了(当然我是从纯经济学角度出发说这个话的)。从这个角度而言,数据挖掘和计量经济学更是一种相互裨益的感觉,前者更多是一种思想吧~矿工嘛,先挖挖试试看。

[注:我只是从自己的所学出发随便说说,其间必有偏颇之处,还望各位海涵及不吝拍砖!]

Categories
网站建设

[调整]侧边栏加入新浪微博

刚刚进行了一个小调整,在侧边栏订阅那一块儿加入了新浪微博。呃,众所周知我是不玩儿微博的,但是当年尝鲜新浪微博的时候不幸绑定了落园,然后就一直有更新。好吧,既然大家这么习惯微博,我还是提供以一个跟踪落园动态的新方式吧,毕竟只有Twitter的图标不公平(那里只绑定了我的英文博客)。

只是一个小调整,方便大家,但是我还是不玩微博的。有兴趣者可以在那里follow我。大致就是下面这么个东西。我比较懒,没重新自己设计,直接借用新浪的代码了。

Categories
事儿关经济

自我通识教育

貌似最近“通识教育”这个词儿蛮热的,很多大学一进去都不分专业了,先来一段什么“通识教育”再说。好吧,我这个已经毕业的人了,也没什么被教育的机会了,只能自我教育一下,故而改称之“自我通识教育”。

今天在读一篇paper,呃,大概久违的非econ的paper了吧。

Zhou T, Kuscsik Z, Liu JG, Medo M, Wakeling JR, Zhang YC. Solving the apparent diversity-accuracy dilemma of recommender systems. Proc Natl Acad Sci U S A. 2010 Mar 9;107(10):4511-5. Epub 2010 Feb 22.

嗯我知道各位会依旧容忍我的引用不规范的。先这样吧。然后按图索骥,很快就找到一篇博文论及此文,巧的是这篇博文正来自COS的一位特约作者阿稳,豆瓣的算法工程师。当时顿感,嗯啊,世界一向很小的是不是。稀里糊涂的看了半天,终于明白这东西大概在鼓捣些什么。不过,我的角度肯定不是从算法本身的角度,更多的是关注一下这种idea背后的逻辑吧。嗯啊,比如我可能会关心一下“为什么”,从数学或统计的角度来说就有一点寻求“一致性”的味道。现在越来越不敢用“隔行如隔山”来宽慰自己,看看我这些年做过的事事儿,就知道天下没有什么绝对的某一领域之说。那天写完那篇关于高维数据降维的文章之后(参见:[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]),过两天正好跟一学计算机的朋友吃饭,顿时被指责我不务正业,一个学经济的来掺和啥啊。这年头,是不是,术业有专攻?

呃,我不管,自我通识教育进行中。记得年初的时候经常和一位朋友闲扯,他就论及为什么“交叉领域”的研究这么稀缺。是啊,想在一个领域做好已经不容易了,更何谈深入另一个领域?此外,这还得有一种为求真理不断奉献的精神,若是对知识没有渴求,那么怕是也没什么动力继续研究下去吧。呃,好吧,其实我是对“金融物理学”有一点点偏见的。刚搜了搜去年此时居然写了一篇关于金融物理的文章,嗯啊,莫非现在的眼界已然不如当年广阔了吗?弄得我都有点冲动去再读一个硕士了,比如statistics或者physics。当然,说说而已,付诸行动的可能性真不大。顺便说一下Mcgill有位牛人,一面是计量大家,一面又在物理学顶级期刊上灌水,看他的CV顿时让人感觉“此人只应天上有”。不卖关子了,我指的是Russell Davidson

最近在考虑把硕士毕业论文好好的从头看一遍,把各个部分分别的仔细考量一下,看看能有什么新的进展。从这个角度而言,当时真的是很冒险,我和我的合作者就这么大胆的去应用经济学到公共健康领域。回过头来看,其中运气的成分不少,要不很可能无法按时完成呢!不过,有点怀念上几个月可以静下心来写两篇文章的感觉,很舒服,很专心,收获也很大。果然,做过一遍的东西还是理解的更加深入些。希望能有一些新的洞见吧。

嗯啊,算是给自己一个锻炼和成长的机会吧。总该暂时的离开economics一段时间,换一个角度、换一个心情来看待这门学科、抛去所有光环什么的。看看落园这些年来攒下的文章,一种小小的惬意感油然而生。明天还要做一回免费的consultant,嗯啊,既然我已经下决心不去Paris了,这封email多少是带有一些愧疚的味道的,我也想静下心来好好的想一想怎么可以帮助一个项目更好的运行。嗯啊,人总是在不断的学习中,也希望这样的学习和磨砺可以带来更快的成长吧。所谓“生于忧患,死于安乐”嘛!

[p.s.] 这是不是意味着落园的栏目设置要改一下了呢?可能“事儿关经济”下面的东西会越来越少,大概需要一个新栏目来替代了吧。

Categories
我的生活状态

宅女潜质

今天突然发现自己原来有很深的宅女潜质啊,可以闷在家里一直不出门、不出门、不出门。这大概也是房子大了,觉得在家里走动走动就好了,不象在巴塞的时候屋子小,就总把自己逼出去至少去趟超市或者吹吹海风什么的。

宅在家里自然坏处多多,比如一闲下来人就容易手痒痒。今天就手一痒痒,把我亲爱的相机五马分尸了。555,整整陪伴了我七年的5700啊,就这么被我华丽丽的拆解了。望着遍地的尸体,我还是很疑虑的不明白它怎么可以忍心对我罢工?拆完了,发现重新装起来貌似挺麻烦的,就脑袋一歪、睡觉去了。本想拍个拆解图秀秀,后来恍然大悟似的我这拆的不就是相机嘛!然后各种被爸妈训,我还理直气壮的说什么这是“实验”,不要扼杀人家的创造力……好吧,从小想要天文望远镜的孩子你真的拿她没办法啊,哈哈。话说,我这望远镜一等都等了十几年了,现在都等的麻木了,仿佛就留个念想就好了,得不得到也不重要了。嗯啊。人的远大志向就是这么被时间无情的残忍的磨灭的。我还可以理直气壮恬不知耻的说一句,看了吧,当年没给我买,损失了一天文学家吧?哈哈,这就是宅在家里没事儿了,开始各种抱怨了。

然后觉得还是得找些事情来做,总是忙碌惯了的人真的不适合无所事事。拎起来去年入手的那本Feynman Lectures On Physics ,突然觉得可以名正言顺的看下去了,美其名曰“工作所需”嘛。突然发现有点小小的不适应不用看经济学论文的日子,嗯啊,被论文摧残了这么多年,真的是~有时候就在想如果我不学经济学,会把自己的一生付诸什么呢?某种程度上,我是个有点野心的人;另一面,则又有点与世无争的淡薄志向。嗯啊,其实我还有很多事儿没做,比如那本小册子……诸位大神先原谅我吧,呃,纯属意外。我只是不知道怎么继续写下去啊……有时间大家开会讨论一下分工好不好?给我一点压力激励嘛。

不过在家里这样懒懒的无所事事的好日子也没多少天了。最近的email数量在经历了一个小低谷之后开始逐渐的回升,说明有些人开始逐渐的想我了,哈哈。例行的回答各种有趣的问题,然后一通闲扯,觉得没有被世界遗忘还是挺让人满足的。有的时候发现自己真的是挺幸运的,至少工作还是可以做自己喜欢的事情,这大概就是很多人梦寐以求的吧?所以也不能太贪心,幸运是有数的,做好自己本身的事儿就好了,在乎那么多别人的眼光干什么。那些耀眼的光芒后面不知遮掩着多少辛酸血泪,故而也不用羡慕嫉妒恨什么的。都是相对公平的~

最近突然在想一个严重的问题:莫非工作中都是用word?貌似我已经好些年没打开这个软件了……sigh。思喆大哥,您是怎么辛辛苦苦的坚持下来latex走天下的?还有那个叫做powerpoint的既没有power也指不出point的神奇软件,我是不是得来个入职培训之类的东西?先洗脑,洗去对它的各种偏见……或者,有什么更强大的替代品么?Flash成本太高就不考虑了,beamer太学术了,还有什么呢?貌似真的是PPT一统天下啊?

算了,坚信有句话叫做“船到桥头必有路”,总有应付的办法。看书看书,这才是正道啊。

Categories
事儿关经济 游来游去

潮流的味道

今天的日志可能有点琐碎,以最近异常的更新频率大家就可以看出来我现在是有多么的无聊了……终于冒险坐高铁回到了家,上车后依旧自顾自的倒头睡去,管他到底什么运气!这两周,彻底把各种交通工具都坐烦了,就差去青岛坐船了!

先说说上午的所见所闻。这是继两周前跟某公司探讨了一下可能的发展方向之后,第二次继续谈这个东西。这一次见到了两位经济学背景的人,说起话来也轻松一些,至少不用我去思考怎么跳过那些专业名词来用最通俗的语言解释一件事物。不过,有点小小的被考的感觉,三个人稀里哗啦的扔给我一堆问题,还好我乱七八糟的总能扯到自己知道的方向上去,一个P-A model还是可以拿出来撑撑门面的,哈哈。

总体上依旧感觉他们对自己想做的事情想法还不是很成熟,没有具体到某一个问题,只是模模糊糊的有一个大的方向希望能够有所突破。话说,白痴了我,世界这么小,Michael老师自然应该是拜访过那里的。我,我,丢人了先。然后被问到会那些编程、尤其是写过的程序最长有多少,当时我就石化了——我想,您不是打算找我来写代码的吧?想想自己简历上虽然罗列了很多语言,现在能捡起来马上用的大概只有C和PHP了,最多再加上一个SQL语句,如果R和Matlab都不算的话。这个,我表示极度的无奈——我认为自己的编程知识足够和coder沟通就可以了,最多写写伪代码,不需要我手动写程序吧?当时那个大汗淋漓啊!您要发挥一下比较优势是不是?

好了,说点要紧的。今天我们一直在讨论,这个到底怎么判断一个拍卖是否收敛到均衡。这个,确实是一个极度缺乏实际工作经验的人难以想到的问题。是啊,在实证研究中,我们往往假设这个东西已经处于均衡状态。可是到底是不是处于均衡,这有没有一个判断的方法?从均衡的定义上来讲,应该是一个收敛到一个点的过程,或者说“有一个不动的东西”。这个东西到底在现实中是不是像我们学习理论模型时候一厢情愿的那样相信一定有还是个问题,就算有,怎么判断?尤其是在一个动态的、有噪音的市场中。我还一时真没想到什么好办法,除了看一下收敛速度之外。至于不收敛是不是均衡就不存在,这个,我真的不知道……不收敛那么就发散?发散到正负无穷又有什么意义呢?顿时真的是毫无头绪。这里面还牵扯到一个竞标者本身所处的产业的发展趋势问题,想想就好复杂,动态的均衡可能是某些外生变量的函数,这么一来就更难以定量判断了……

还有一个比较好玩的问题,说的是这个市场中不断的有新的agent加入,而这些人可能缺乏对于拍卖机制的基本认识,所以他们便成了“搅局者”。这也是继承上次谈话中我们提到的“非理性”的问题。是啊,你有一个规则,但是大家不明白这东西应该怎么玩,那么再美好的结论也是白搭。嗯,我一直在想的是,长期中我们确实是可以假设所有的agent都通过学习了解了这个过程,但是长期有多长,经济学一般难以定量的给出答案;此外,如果有更多的搅局者在动态过程中不断的加入,那么怎么对付这样的冲击,呃,我也不知道。天,真的是理论和现实的差距好大,不做实务的人怎么会意识到现实中有这么多问题!顿时觉得自己枉读了一堆论文,还没琢磨明白怎么把behavioral econ和其他经典的微观理论结合起来,没有思路上的启迪啊。是不是应该发个email骚扰一下某些prof了……真的是才疏学浅啊!

嗯,大致想起来的最有意思的就这些,看来果然从现实出发是有很多东西可以细细琢磨的,且不是一日半日便可寻的上佳良策的。哈哈,果然学习到了很多东西,看来这次的北京之行又称得上是不虚此行!好多要学习的啊,弄得我一下子又想开始看论文了……sigh,难得的假期!

好吧,现在开始灌水。首先貌似搞定了Kindle的replacement,Amazon很爽快的答应重新给我寄一个过来,不过唯一的缺陷是只能寄到香港去~唯有拜托同学先收一下了。其实要不是一直在旅行、懒得打越洋电话,新kindle估计已经拿到了……amazon的效率还是值得赞一个的!不过继续等吧,嗯啊,至少最近是没的用了。话说,这个“卓越亚马逊”什么时候开始售卖中文版的kindle书啊?我等的好辛苦啊!今天又手痒痒买了一本 The Cathedral of the Sea(中译:《海上大教堂》),在巴塞的时候就一直想看而没找到的——西文版的看不懂,英文版的直接买好贵。于是就一直忍到现在。瞬间又想起来去年临走之前拿到的那本《费曼物理学讲义》,也要抽时间看完啊,各种无奈拖到现在……此外,今天很囧的发现在卓越买完书居然没法信用卡付账了——余额不足。天,我居然把8000的额度彻底刷爆了,真人品啊!各种检讨好了,回国之后的货币幻觉啊,总觉得什么都不要钱似的,虽然另一面也在抱怨什么都贵。这个,没想到高铁还是蛮费钱的说,有点小小的出乎意料。不过综合看起来还好,两周的时间大概在路上花掉三四千块钱,比巴塞还是便宜了许多。

最后感慨一下weibo这个东西。呃,众所周知我虽然有twitter但是基本上只是用作通知一下blog更新,还链接的是我的英文的blog……饭否也是很多年前玩的了,现在已然销声匿迹了。今天好奇心起,就开始各种人肉,欲多了解一些事情。果然不是很麻烦,就顺利的搜到了想看的人的微博(哈哈,照片好卡哇伊啊)。怎奈需要登录,于是乎费了好大劲终于想起来新浪围脖的帐号密码,真不容易!登上去,开始细细浏览,嗯,嗯,好像一切都在意料之中似的,没什么特别特殊的。最多就是满足了我一下好奇心,别的地方基本上搜不到什么相关信息。不写blog的人真的很难找啊!

周围很多人都在玩微博,我不知道自己是不是真的跟不上潮流了,一点都没有那种及时获得信息的愉悦感了,每天能例行的看一下新闻就算不错了。诚然我知道微博这东西很强大,但是已经没有任何动力去玩了——以这几天的blog更新频率来说,我大概已经把这东西当微博写了,除了长了些。想说的是什么呢,真的,第一不想被信息淹没,第二想静下心来写一点东西而不是一味的推波助澜。我想,这就是blog和micro blog最大的不同吧?大致说来,我是没有动力试水micro blog了——同样的还有一点比较庆幸的,在巴塞的这一年终于戒掉了手机依赖症。现在,我真的不希望我的手机可以用来上网,能打电话发短信就可以了!然后给我一个kindle可以看看书打磨路上的时光就好了(最多连连网看看google reader)。至于互联网,还是用电脑来应付吧。像我这种人最不能买的怕就是iPad了,要不肯定是难以离手的那种。网络越发达,还是越要给自己制造一点障碍来专心致志的做应该做的事情。不能总把自己淹没在信息里面,还是要知道究竟想做的是什么的(为自己最近笑话增多做检讨,煎蛋这种网站就是不能订阅的是不是?)!

还有一件很奇怪的事儿:学校的VPN在家里(铁通)能用,在北京的宾馆里就连不上,好诡异。VPN是用cisco客户端那种,不过不知道是不是因为服务器地址含vpn,所以直接被屏蔽了。一个需要用vpn上gtalk的人,真伤不起啊~还有各位,怎么把gmail的offline激活?今天本来想装gears,去官博看了一眼已然属于末日黄花了。Gmail直接告诉我我的浏览器(FF4)不支持offline,顿时晕倒。还请支招对策!这个gmail缓慢的登录速度我真受不大了了!