落园 – Page 42 – 来者皆客

读书有感

最近在修的几门课...(Sep, 2013)

大家火眼金睛，微博上随便吱呀一句全都猜出来了...最近在修几门历史和艺术相关的课，总而言之就是我觉得我的人文修养实在是太烂了...工作之后的好处就是想学点什么就学点什么，自由的很，随心而至。

《史记》记载，秦始皇时期，“秦法，不得兼方。不驗，輒死。”。而我就属于那种死就死了吧...总是想学点好玩的东西的人。

现在在follow 的几门课是：

A History of the World since 1300 :普林斯顿的老教授，econ history和history出身...上来第一节课就提到Wealth of Nations...我只是想补习一下历史知识而已。
中國古代歷史與人物－－秦始皇：台大超热门的课，中文学中国历史各种舒服...
Modern & Contemporary American Poetry：这个完全跟下来有压力，只是不时去听两节...前两天买了本《狄金森诗选》翻了翻，确实语言优美、想象力丰富的很。总觉得诗词歌赋无论语言、多少都相通的...可以不时抒发一下小小的浪漫情怀。
艺术史/World Art History：Perspective from Chinese Understanding：北大的课，10月份开课...

其他的边走边看吧，coursera上的课大都不长，可以一门一门慢慢来...

此外，刚留意到复旦吴立德老师的Elements of Statistical Learning又开课了，可惜我们搬离张江了哇...各种怨念中。

Tags Coursera, Statistical Learning, 人文修养, 历史, 史记, 秦始皇, 艺术, 诗词, 课程

事儿关经济经济、IT观察与思考

复习一下Advanced Macro...

今天来上班的路上依旧堵的一塌糊涂...然后一路就在琢磨这个信息不对称到底会有多严重（洗澡、堵车、睡觉前一向是灵感多发时段）。想着想着，就想到了某几个models（表示这几个models是在BGSE时候最喜欢的professor教的，所以无论如何也忘不掉...可见一个好的professor是多么的重要，一下子把我扯后腿的宏观拉到了三高平均水平），复习一下。

Competitive Equilibria and Social Planner's Problem

Economic growth model中的经典问题就是自由市场竞争均衡和中央决策者选择的社会最优。很多时候这两个解出来是一致的...实在是懒得打字了...直接找个slides贴一下。

Competitive Equilibrium and the Welfare Theorems.pdf

重点highlight出来了...市场均衡等同于中央决策者的最优解。这牵扯到福利经济学第一和第二定理。若干年前郭凯就写过一段文章通俗的解释这两个定理，我也就不再赘述了。有意思的是这里该定理成立的三个条件：

1.充分竞争2.没有信息不对称3.没有外部性。

重点想说的是第二个。信息不对称。

最近去很多投资大数据的会议啊沙龙啊，不断的强调什么信息化啊，智慧城市啊之类之类的，一副扬言大数据和互联网可以改变人类生活所有模式的态势。最好的例子怕就是打车app了吧？就是建立了这么一个信息交流的平台，打车者和出租车之间的信息不对称就得到了极大的改善。于是很多人在说，为了解决交通拥堵，除了基础设施建设以外（修更多的路、更合理的规划立体交通），我们应该更合理的安排车流，避免大家都拥挤到同一条道路上。这么说下去，仿佛给交警们建立一个实时车流量监控平台、他们就可以更科学的引导车流、就能解决局部大塞车的问题。而这个平台需要什么呢，无非是更多的摄像头或者其他感应器、以及更好的图像识别技术。（其实如果真的一个平台就可以解决问题，那它应该早晚会自己出现吧？比如淘宝或者ebay这样解决中小企业和消费者之间信息不对称、信息交换不充分的平台，利润大大的啊。我一直觉得ebay淘宝和amazon、京东之类最本质的区别就是，前者是平台、用于交换信息，后者是整合的大型厂家，用规模经济来降低成本。早早晚晚的，两类之间的分离会越来越大、相互之间的竞争越来越少吧？）

听完这番言论，典型的“social planner"掌控一切的态度就出现了。只要我的信息是充分的，我就能找到最优解，blabla...

大家觉得呢？理论上只要解决信息不对称的问题，自由市场也可以自动克服这个矛盾吧？我倒是在想，social planner是不是应该更好的致力于解决“修路”等囚徒困境呢？与其试图掌控更多信息然后制定规划，不如充分的把信息散布出去然后让大家自我规划...那些不能自我解决的问题，再交给政府统一规划吧。至少我现在对于social planner的过度干预微观经济活动越来越反感了...同样的，也很反感某些个体炒作这些概念来骗政府投资。

嗯，最后是不是还该加上一个条件？social planner是绝对理性且大公无私的？呵呵，这个假设多大程度上成立，大家心里自有体会...

------------------------废话分割线---------------------

发现不能总是从macro economics的角度想问题，否则会觉得这个世界越来越没希望、越来越可怕。

Tags macro economics, social planner, 交通拥堵, 信息不对称, 信息化, 信息平台, 囚徒困境, 堵车, 打车, 政府投资, 智慧城市, 福利经济学定理, 自由市场

日常应用

从词频统计到词频矩阵（善用sparse matrix)

Post author By Liyun
Post date August 27, 2013
14 Comments on 从词频统计到词频矩阵（善用sparse matrix)

今天在下手写一个算text similarity的程序时，万般痛恨tm包不争气，而lijian哥的tmcn包又还木有完工，所以只能自己从头开始写了...

一切正常，基本的清洗啊，全角换半角啊，分词啊，去stop words啊几行代码顺利搞定，结果统计完了每行的词频却找不到一个有效的办法来算词频矩阵！数据也就是那么几万行嘛...reshape2怎么一下子就挂了呢？研究了一番，想到就算搞出来一个几万乘几万的词频矩阵，后面的distance之类也算不出来...悲哀的感觉充斥。没办法，只能祭出sparse matrix这面大旗了！

Google之，R里面可以调用Matrix或者SparseM。鉴于前者看起来比较简单的样子，我就没有去折腾后者。Matrix里面Sparse Matrix的定义比较简单，就是记录一下值不为0的行和列编号，以及他们对应的值就可以了。等等，这个东西怎么听起来这么熟悉？！好像在network analysis里面整天写这样的程序嘛！对嘛，不就是一个edgelist格式的network（记录相互连接的边）转换为一个matrix格式的网络（边边矩阵）嘛！瞬间有种打通任督二脉的感觉....

这样，只要我数出来每篇文章中的词频就足够了！形如：
Post_id word count
1. A. 1
1. B. 2

这样，然后

sparseMatrix(as.factor(data$Post_id),
as.factor(data$word),
data$count)

就ok啦。超级高效！瞬间秒杀。根本不用去算真正的词频矩阵。

附这个函数的用法：

sparseMatrix(i = ep, j = ep, p, x, dims, dimnames,
             symmetric = FALSE, index1 = TRUE,
             giveCsparse = TRUE, check = TRUE)

同样的，dim()还是可以用来看维度，一般没错的。

再后面就是考验大家具真学得好不好的时候啦。比如方差这种东西，不就是 XX'嘛（当然要先减一下均值....），这里Matrix这个包有tcrossprod()可直接算XX'，colsum这些也都还有...正常的矩阵乘法也都还可以用。关键是，QR分解什么的也有！

于是乎我可以深深满足的继续码下面的分析去了...

--------------------吐槽分割线------------------
作为一个经济学出身的孩子，我做梦也没想到有一日我居然会去碰稀疏矩阵这种东西...没办法，生活所迫呀！自己动手，丰衣足食.... T_T

Tags network analysis, R, sparse matrix, 稀疏矩阵, 自然语言处理, 词频矩阵, 词频统计

事儿关经济

Poverty Action???

曾几何时，我也被忽悠的一直对Poverty Action一类的组织很感兴趣。说白了，就是World Bank之类的组织和Harvard、MIT等一些高等学府里面的一群人打着扶贫的旗号跑到非洲去，然后开始各种各样的field experiments...当时有申请过J-PAL（幸亏没有得逞...），全称为The Abdul Latif Jameel Poverty Action Lab，网址为http://www.povertyactionlab.org，做的东西就是：

it has grown into a global network of researchers who use randomized evaluations to answer critical policy questions in the fight against poverty.

多么简洁达意啊——利用随机试验的评估方法、来回答战胜贫困行动中的、关键政策问题。

我为啥越来越不喜欢这些人呢？翻看最近几年的微观实证研究和development economics，一把一把的都是这样的paper，他们的方法也作为经典案例写入教科书。基本上他们Board名单上的这群人近些年的publication都是在这一系列框架下的。作为一个多少做过一点health economics的人，我是觉得这一系列的实验真的是在烧钱...打着对抗贫困解放全人类的大旗，然后见到的成果只是发了一篇又一篇的paper，真不知道有啥用。

个人总感觉跟Development economics沾边的经济学者，大都有那么一点“超凡脱俗”的特质，却总给人感觉有些怪怪的。说不上来的怪怪的。有些事情，当成了信仰，就不免感觉有时候甚是盲目了。我不是一个百分百的“市场经济”信仰者，也就是说我还是相信优秀的宏观或者微观政策是可以影响经济发展的轨迹的。但是，这个东西真的完全是试验可以回答的？且不说实验设计本身会有漏洞、execution 会有各种不尽如人意的地方（相比而言industry这一点做的要好很多吧？），收集数据的质量参差不齐，就是从计量一直努力靠近的internal validity 和external validity上说，我始终不觉得短期的实验效果可以那么好的在长期展现...太难了。

当然你可以argue这个东西是“聊胜于无”，至少说明我们观察到了这个问题、致力于解决这个问题，现在的一切都只是各种各样的尝试（pay the tuition）罢了。可是...从经济学的角度，我们不是一直在强调资源的优化配置么？

还是有一直在看J-PAL定期的update，越来越觉得这些人的目的只是争取更多的未来政策制定的话语权。有了这些话语权，就像划定了一道“门外汉”的界限，门外的人就毫无说话的底气了。想到这里，多少有点胆寒了。

其实我是有点借题发挥...唉。看过的案例越多，越不信服...

Tags development economics, field experiment, health economics, J-PAL, MIT, poverty action, 世界银行, 市场经济, 非洲

读书有感

Causal Inference?

只是习惯性的刷feedly(不再是google reader)的时候刷出来Andrew的这篇post...

The Roy causal model?

看到Heckman的时候眼睛顿时一亮。嗯，这是怎么个情况？谁来给我讲讲这里面的宿怨？

然后顺藤摸瓜的，就跑到Rubin causal model那里去了。一直对econometrics宣称的causality有所顾虑，但是没想到这东西居然还在各个领域被发扬光大（越来越体会到economist开山收徒弟的威力）。先不管这个东西的基础到底如何，从实用的角度确实符合了大众的需求——要不这些人早就失业了吧？

但是从实践来看，无论是随机试验还是RD之类的，总是有各种各样的问题，总让我对casual inference的信心越来越低...有的时候，只能一句“呵呵”打发了...

Tags causal inference, econometrics, heckman