Categories
事儿关经济 互联网产业观察

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference?

当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。

这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。

对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个辩护就是,关注的问题太不同了!data mining很多时候关注的是针对每个个体选择适当的信息传递,而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上,针对这一点我现在越来越认同某个计量学家对于consistency的评价了:

(大意)我喜欢计量经济学,正是因为他对于政策制定的强力支撑。

况且,还有quantile regression可以做一个完整的系数分布估计呢!加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨

要会技术(统计、机器学习、可视化、最优化),要懂市场(营销,产品,客户行为,渠道),要懂沟通(同事协同,上级汇报,对外呈现),工具要熟练(SQL、Excel、SAS、ppt),公司战略还要懂点,没准还要带团队,要懂管理……。OMG,我在说什么,不是MBA,是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛(题外话,我等consultant活得也格外艰辛啊,这些加上无穷无尽的出差 -_-|| ),而我后面跟的一句是“市场发展不成熟,分工不明确,相关领域人才太少的恶果”。没办法,只做模型和分析远远不够啊,太少人可以看懂并完美应用了,所以搞分析的不得不自己卷起袖子上阵,即当爹又当妈……

那么说到底,为什么现在big data这么火?为什么 quantitative analysts 对数据源这么 obsessing 呢?我的理解是,

1. 大数据可以很容易的aggregate到适当的level,从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通(既实话又废话)。
2. 大数据使得很多大样本的性质可以直接应用,需要依赖的模型假设大大放松,从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining(又废话了),从而不仅仅服务于单一的policy making,还可以实现定点、极端个性化的信息投递。说白了,就是既可以分析群体特性,又可以兼顾个人特质,像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据,格式整齐(要不搜集成本过高也没法搜集)、数据真实、定义明确,很容易进行data cleaning(一个反例:跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱,统计口径什么的千差万别,数据来源也未必可信)。这样的数据只要简单的编程处理就可以了,把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息,比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用(idea -> result -> implementation)。关于这一点,Frank曾经发给我一个很好的summary,说的是大数据为发展(经济学)带来的新机遇:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的,social network的数据往往都是大数据(得有links嘛),所以既然我的研究兴趣在那里,自然会更多的关注大数据。

那么,大数据的对于分析人员挑战在哪里呢?
1. 从噪音中找到有用的信息: 正如前面所说,大数据包含了太多个体的信息,所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息,对于统计分析专家的思路清晰要求度非常之高(Frank兄曾经对此做过一些简单的批判,业界的一些报告有时候无奈的直接把数据aggregate了,丢失了部分有用信息)。而我总觉得,对数据背景一定要有所了解才可以,不能是简单的大海捞针,还是要有直觉指引方向的。(只针对业界数据,制药行业之类的实验数据我没接触过,没有感觉~)
2. 大数据对于建模者的学术训练背景要求更高: econometrics, data mining等等统计分析方法,及其结合,往往意味着分析者需要有着良好的数据直觉。而这一切,往往离不开一个solid的学术训练背景。最简单的,如果不会C或者python之类的编程,不会R之类的统计软件,那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集,我知道很多人就是excel手动做数据清理,然后扔到stata之类的软件中调用相关的命令(或者可以称之为函数)就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私: 大数据往往来源于个体,这也就意味着data access往往被控制的很严,不可能向所有研究者开放。那么,研究者往往只能接触一个领域、一个公司的数据,而无法是非常全面的行业数据(比如,通信数据你要么有移动的,要么有联通的,不太可能移动联通的同时都给你)。这也多少造成了分析只能从一边入手(依赖双方数据的,比如game theory的实证分析,可能会有些困难)。

暂时先想到这些,或许日后还会补充吧,欢迎各种批判(我只是小小的井底观天而已,加上各种眼高手低、站着说话不腰疼)。其实有的时候,想想自己明明是 more into theories than empiric,但是也就被各种“拉上贼船”下不来了。至少我还是坚信,更难积累的是analytical sense而不是skills,后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说,很多时候还轮不到拼天赋……

(p.s. 发现新版WP的全屏编辑模式很好用啊,很简洁明了令人可以专注写作!)

Categories
事儿关经济

(线性)相关性的迷惑与数据挖掘

今天刚刚看到TED的一个视频。以前的时候总是听到TED的大名,但是一直没有怎么看。刚才的是关于统计分析的,感觉很有意思,见:http://v.163.com/movie/2011/7/L/1/M7805EO9V_M7805PEL1.html

TED可能受众是大众一点,所以演讲者更多以举例为主。这个就是以TED现有演讲为基础,来黑色幽默的展示统计分析可能带来的误导和违背常识。哈哈,一如既往熟悉的美式幽默风格呢!

里面有很多例子,比如“受欢迎的演讲者”一般头发要长一些,之类之类很简单的相关性统计。然后给出了一个终极TED演讲模板……当然有点搞笑了。不过这也让我想到,关于“相关性”和“因果关系”之间,我们应该怎么更好的结合起来。统计分析最常规的就是给出相关关系,不管是线性的还是非线性的,以试图寻找连系事物之间的线索。同样的,数据挖掘也是做的这个事儿,在一群纷繁的数据中,找出有价值的信息,往往也是两个事物之间的连系。

大多数情况下,相关性分析是符合我们直觉的,也会给接下来的业务开展带来极大的指导意义,比如那个最著名的“啤酒与尿布”。但是现在大量与我看来有些莫名其妙的统计模型的引入,尤其是计算机发展后算法实现的便利,很多人不管三七二十一就开始套用算法了。没有直觉的算法我还是觉得不靠谱,尤其是无法用经济原理来解释的人类的行为。一个算法或者统计模型分析出来的结果,只有通过演绎法下面的经济原理检验,我才觉得是可以信赖的。违法直觉的结果强行应用,怕是事得其反。

有名的例子有很多,比如最早的时候联合国做扶贫,思路很简单,就是若干统计研究发现,一个国家接受的FDI(外来直接投资)和GDP正相关,所以想当然的认为只要给非洲等贫困国家大量的资金支援,他们就能产生经济增长和发展……然后呢?一笔笔钱显然是白扔进去了。FDI水土不服的例子有的是。显然,这里的问题就是,FDI和GDP确实是有正相关关系,但不见得是因果关系,所以就算FDI扔进去也不见得GDP就会产生。一个线性估计模型出来的参数,可不是这么简单的就适用哦。这也就是计量经济学家们一直纠结的内生性问题——两个变量之间本身就是相互促进和影响的。

这也是为什么,从一个政策制定指导的角度,计量经济学会首先侧重于一个估计量的“一致性”而不是一味的追求估计精度的提高和预测的准确性,这个和金融里面的关注点差别就会蛮大了。这也是我比较欣赏计量经济学思路的一个地方。相比于大多数很fancy的统计学模型和计算机算法,计量经济学还是比较务实的希望先把握准一个方向,然后才去细细地寻找一种解决的策略。现在身在业界,更是体会到一项商业活动找准方向是多么的重要。否则,一旦大趋势改变而我们浑然不觉,那么什么算法模型都只能是一时的准确,而很快就会消亡,毕竟只是在猜而没有一个坚实的基础。

所以,从这个意义上,我一直觉得经济学看问题还是有它自己的深度和远度的,无论是演绎法之下的经济原理与分析模型,还是归纳法之下的计量经济学。从相关性到因果关系,往往还有很长的一段路要走的。走通了,自然登高望远风景无限秀丽。不过,这其中的辛苦也是当事人自知啊~

开发算法固然不容易,但是能把算法找到坚实的基础支撑和准确的应用,再进一步提出算法的优化和进化要求,更是一种考验智力和耐心的事儿。这么看,economic consultant真的是最最伤不起的职位啊!还要懂得如何深入浅出的展现结果啊!太历练人了!

Categories
事儿关经济 读书有感

经济视角下的历史发展

古语有云,

以铜为镜,可以正衣冠;以史为镜,可以知兴替。

嗯,经济学也离不开历史啊。当然,鉴于这个中国计量经济学已经和世界不知不觉脱轨了好多年了(好吧,或许从没接上轨过),大家对于“经济史研究”的定义也自然区别蛮大的。记得若干年前有位教授嘲讽的对我们说,“数学不好的也可以读经济学Ph.D啊,去做经济史就行了,那玩意儿不需要数学”,顿时我们底下鸦雀无声。不过说实话,看国内的期刊,尤其是以《中国社会科学》为代表的社科高级期刊,我还是宁愿看看纯历史研究者写的文章(特征之一是处处注释、注释往往长于正文),也不愿过多的看所谓的“经济学方法研究历史”的文章,实在是味同嚼蜡啊。

相比而言,国外的学者研究经济史的思路我更欣赏,尤其是在经济视角下去看待历史发展的一系列文章。今天收到新一期的AER目录,发现Nathan的那篇Slave Trade已经发出来了,

"The Slave Trade and the Origins of Mistrust in Africa" (with Leonard Wantchekon), American Economic Review, Vol. 101, No. 7, December 2011, 3221-3252.

也便再回去读了一下(working paper版在这里)。先不管这篇文章计量方法上的争议(比如geographical distance是不是违反exclusive restriction之类的),idea还是蛮有意思的。貌似本文也是Nathan以前那篇著名的QJE的续篇:

Nunn, Nathan. 2008. “The Long-Term Effects of Africa’s Slave Trades.” Quarterly Journal of Economics, 123(1): 139–176.

简单的说,文章关注的是横跨大西洋和印度洋的奴隶买卖贸易对于当代非洲人之间“信任”的影响。先简单的拷贝一段当年奴隶贸易的背景:

大西洋奴隶贸易,或称为跨大西洋奴隶贸易。是指16世纪至19世纪时期(也有人认为早至15世纪,并持续至20世纪),在环大西洋地区将非洲大陆人民作为廉价劳动力提供给美洲大陆殖民地地区的一种贸易。奴隶的来源主要是非洲西部和中部,黑人被欧洲人通过贸易或袭击、绑架等手段抓获贩往美洲大陆。这是一种带有强烈殖民主义色彩的血腥黑暗的贸易,在长达约400年的黑奴贸易中,估计从非洲运到美洲的奴隶大约为1200万-3000万。

显然,这种“黑奴贸易”是和新航线的开发有着脱不开的联系的。这个暂时按下不表。

然后呢,被频繁交易的奴隶们自然会受到各种心灵扭曲的压迫,最终可能导致他们对周围人的不信任、进而影响社会制度的形成等等。然后,Afrobarometer调查中询问了撒哈拉以南的非洲中的约21,822,其中一个问题就是他们“多信任你的亲戚朋友、邻居和当地政府”,然后回答会是“一点都不、一点点、有一些、很信任”之一。然后自然,这个东西就放在回归方程的左边了。右边主要是当地某部落或种族中在当年的黑奴贸易中掠夺为奴的人数,还有一系列的几近“标准化”的控制变量。然后在若干篇文章指出当年的“殖民政策”会对后续的经济社会发展有很大影响之后,他们也用一些变量来试图捕捉这种影响。当然,为了逃离“内生性”的纠结,他们选择了一个工具变量——某人所处种族部落离当年黑奴贸易海岸区的距离(距离决定了成本,越近可能越容易被掠夺)。他们认为对于exclusion restriction,他们多少控制了一些衡量当年的殖民政策变量、以及当年部落的饮食结构(离海岸越近可能越依赖捕鱼、进一步影响人口规模),最后还控制了一下到当年撒哈拉贸易大城市的距离……加上一堆“稳健性检验”,最终确认了他们的结论:现在非洲国家人们彼此之间的不信任是可以追溯并归罪于当年的黑奴贸易的

如果我们假设一下“信任”是一个国家拥有一个健康的经济体制的前提条件(比如发达的信用体系可以减少流通环节的摩擦和交易费用),那么非洲的落后可能真的要从这个角度归罪于当年的殖民统治了。

同样有意思的还有原来的一位professor Davide Cantoni 写的一篇关于“新教主义与资本主义兴起”的实证研究文章,基本就是对马克思·韦伯的观点进行了计量角度的研究:

Cantoni, D. (2010). The economic effects of the protestant reformation: Testing the Weber hypothesis in the german lands. Unpublished, Universitat Pompeu Fabra

Working Paper版在这里
也就是说,“新教主义”真的带动了“资本主义”的兴起么?有意思的是,Davide从小长大的德国就是当年新教兴起时和“旧教”并存最“均匀”的国家,因此德国变成了观察这一现象最好的历史见证。他用1300-1900之间德国276个城市的数据,发现,新教主义其实对经济发展没有任何实质性的影响。唯一可能的现象是,接受新教主义的家庭/城市往往本身也是比较开发和富裕的,因此最终导致了这些城市发展比较快,而并不取决于新教是否先在这些城市兴起。很有意思的一篇实证文章,也说明了“以史为鉴”的时候,其实有很多工作我们还是可以利用数据更细细的考究的。伟大如马克思·韦伯,也只是基于自己有限的观察得出的结论,不一定有普适性啊(当然,按照这篇文章的结论来说)。

Categories
事儿关经济

落差与落寞

原来学计量的时候,喜欢嘲笑计量自以为是的“因果关系”,一致性毕竟只是数据上表达出来的统计标准,到底是不是因果关心还有待考量。可见,对于科学,多少还是心存敬畏的。

工作之后,先是[cref %e5%ba%95%e7%ba%bf 感慨底线一而再、再而三的降低],后则是各种无奈。比如想回答一个问题,是不是“X导致了Y”,明明有很好的计量方法可以去用,结果无奈的只能一次次的按照一种“普通青年能理解的思路”用最简单的分类统计去做,然后什么“显著性检验”之类的都算作浮云了。这个时候再自嘲,自己都不愿意看着自己算出来的结果说事儿了。唉,更加怀念当年手动推的日子咯。

有的时候,真的不知道应该怎么办才好。原来也是比较喜欢画图的,后来觉得很多时候画图是一种不负责任的在误导,就越来越少的画图了。久而久之,对于图形的直觉就越来越差了。很多时候,也不知道怎么办好,就那么安静的坐在那里,看窗外云卷云舒……

有的时候,或许不知道,心情会更好一点吧。曾经沧海,才知道难为水有多么的难!

抑或许,我犯的最大错误,就是太顺从、太软了。或许,以后应该更多的stand out,亮出自己的声音!

Categories
事儿关经济

数据挖掘 vs 计量经济学 (Data Mining vs Econometrics)

先说一下免责声明:我在数据挖掘 (data mining)和计量经济学 (econometrics)两方面涉猎都不算深入。今天斗胆写这么一篇文章主要是最近在看data mining的东西,有一些小小的体会,故记录下来以备后用。

Data mining是最近几天热起来的东西,而由于其中文翻译又可译作“数据挖矿”,所以做data mining的人有的时候也被戏称为“矿工”。Data mining和近十几年的信息化潮流密不可分——若没有计算机在各行各业的大力应用,又怎么可能会有这么大规模的数据用来分析呢?简单的说,data mining有点“透过现象看本质”的味道,在大家还都在“雾里看花”的时候,data mining致力于“拨开云雾见月明”。当然一个最经典的例子就是“啤酒和尿布”,即经过统计发现男士购买尿布的时候也容易购买啤酒,所以把他们两个放在一起可以很有效的提升啤酒的销量。所以从我个人的浅薄理解来看,data mining更多的就是利用计算机高计算性能把大规模数据一一的进行模型匹配,然后按照我们制定的标准来返回最优的模型。

至于econometrics,它又想回答什么问题呢?我虽然一路经济学出身,计量却只是当工具学的,从未研究过怎么开发工具,这里只从应用计量经济学的角度来说说我看过的研究。嗯,我们可以说在计量经济学里面总是在做“回归分析”(regression analysis),即给定一个感兴趣的变量,把其他的可视作影响因子的东西扔到方程右边。从广义矩估计的角度来说,即在一阶距为0的前提下(小样本下无偏)、最小化二阶距为目标(OLS方法,欧几里德空间内的距离按||·||2来算)进行拟合。当然简单的回归一定是有问题的,得出的结果最多能说明两个变量之间的“(线性)相关性” (linear correlation)而无法提供进一步的原因:到底是由X导致了Y,还是有其他的因子同时作用于X和Y从而他们显示出一致的变化趋势。从经济学的角度,我们当然更感兴趣什么东西导致了Y,所以在大样本下从寻找一个consistent估计量的角度出发,我们一般要求X是外生的,要不就需要借助IV等其他方法了。如果所有的方程右边的变量都是外生的,那么我们就可以放心的说这里面有“计量上的因果关系(causality in econometrics,这里定义明确一点要不又要被Yihui兄等统计学出身的批判了)”。所以说到这里,我可以小心翼翼的说,econometrics毕竟是和经济学紧密相关的,所以我们感兴趣的是变量之间的“谁导致了谁”的关系,而寻求这种答案的途径之一就是让足够的数据来说话。从这个角度来说,我更倾向于把计量作为检验 (empirical check) 经济理论的一个工具。至于我们怎么可以保证X的外生性(exogeneity),那就是要具体问题具体分析了。两种主流的观点是要么依据一个经济理论中的structural的模型来进行估计,从而什么是外生的一目了然;要么做(随机)(田野)实验 (randomized field experiment)。我感觉近两年两者结合的趋势越来越多,毕竟做实验的那群人不是什么都不知道就去试一通,他们很多时候也是依照现有的经济理论进行随机化实验设计的。从这个角度来说,实验更是检验理论的一种途径了,先不论它可以在什么程度上回答一个(经济学)理论问题。

那么数据挖掘和计量经济学直接是冲突的、还是互补的、抑或其他呢?简单的一路看过去数据挖掘的介绍,譬如Wiki,大多数时候看到的是从计算机或者统计学出身的人写出来的方法论上的东西,缺少有人直接论及这东西和经济学是怎么结合的。我也只是粗粗的搜了一番,找到的只有一篇简短的文章:Data Mining in Economic Science,by Ad Feelders。先引用一下它开头引用的一段话:

Let neither measurement without theory nor theory without measurement dominate your mind, but rather contemplate a two-way interaction between the two, which will your thought processes stimulate to attain syntheses beyond a rational expectation!

Arnold Zellner

大意就是说“我们不应一味迷信数据不顾理论,但也不宜欢迎没有现实世界数据支撑的理论”。这篇文章不长,感觉作者可能是更偏向宏观经济学(macroeconomics)分析,所以例子都是宏观中经典的譬如体现凯恩斯主义的IS-LM模型。作者的观点是,很多经济理论并没有直接的给出一个特定的模型设定,所以数据挖掘的方法可以用来选择最优的模型(依稀记得某宏观经济学家曾在上世纪90年代就一一试过1700多个线性模型……当然现在看来他的分析难逃内生性问题的争议,不过这大概是我所知道的最早的和数据挖掘思想相近的尝试吧)。后面还提到时间序列分析VAR模型(vector auto-regression),这个我有点不喜欢VAR的思想,所以不再多做评议。

回到那个啤酒尿布的例子,我想到的是,确实,这个统计结果出来之后经济学家可以很容易的解释“为什么”,但是经济学理论却难以告诉我们在某个(微观)实例中到底反映这种理论力量的“是什么和什么”。与我来说,经济学的 explanatory power已经很强大,但是具体到一个可以操作的层面还是需要其他技术来支撑的。如果我们可以通过数据挖掘在找寻可能存在关系的两个变量(此例中啤酒和尿布),那么就可以依据经济学理论进行可能的解释,然后还可以进一步设计随机对照试验,分析试验结果则是计量的用武之地了。

嗯,这大概是我刚刚接触数据挖掘的一点感触,不知道几分正确几分错误,或许若干年后回头看就会觉得有些幼稚了。最后想说的是,从我个人的观点来说,经济理论能告诉大家的更多的是“为什么”,在这个很general的基础上,我们可以进一步尝试的去回答在某个例子中到底“是什么”。最后无论使用线性模型进行回归分析还是其他的模型设定都好,数据挖掘技术可以在这个方面推进工作的进展、帮助我们更好的理解数据和读懂数据、在浩繁的数据海洋中提取最有力的信号,剩下的可能就是经济学进行分析的工作了(当然我是从纯经济学角度出发说这个话的)。从这个角度而言,数据挖掘和计量经济学更是一种相互裨益的感觉,前者更多是一种思想吧~矿工嘛,先挖挖试试看。

[注:我只是从自己的所学出发随便说说,其间必有偏颇之处,还望各位海涵及不吝拍砖!]