Categories
事儿关经济

Poverty Action???

曾几何时,我也被忽悠的一直对Poverty Action一类的组织很感兴趣。说白了,就是World Bank之类的组织和Harvard、MIT等一些高等学府里面的一群人打着扶贫的旗号跑到非洲去,然后开始各种各样的field experiments...当时有申请过J-PAL(幸亏没有得逞...),全称为The Abdul Latif Jameel Poverty Action Lab,网址为http://www.povertyactionlab.org,做的东西就是:

it has grown into a global network of researchers who use randomized evaluations to answer critical policy questions in the fight against poverty.

多么简洁达意啊——利用随机试验的评估方法、来回答战胜贫困行动中的、关键政策问题。

我为啥越来越不喜欢这些人呢?翻看最近几年的微观实证研究和development economics,一把一把的都是这样的paper,他们的方法也作为经典案例写入教科书。基本上他们Board名单上的这群人近些年的publication都是在这一系列框架下的。作为一个多少做过一点health economics的人,我是觉得这一系列的实验真的是在烧钱...打着对抗贫困解放全人类的大旗,然后见到的成果只是发了一篇又一篇的paper,真不知道有啥用。

个人总感觉跟Development economics沾边的经济学者,大都有那么一点“超凡脱俗”的特质,却总给人感觉有些怪怪的。说不上来的怪怪的。有些事情,当成了信仰,就不免感觉有时候甚是盲目了。我不是一个百分百的“市场经济”信仰者,也就是说我还是相信优秀的宏观或者微观政策是可以影响经济发展的轨迹的。但是,这个东西真的完全是试验可以回答的?且不说实验设计本身会有漏洞、execution 会有各种不尽如人意的地方(相比而言industry这一点做的要好很多吧?),收集数据的质量参差不齐,就是从计量一直努力靠近的internal validity 和external validity上说,我始终不觉得短期的实验效果可以那么好的在长期展现...太难了。

当然你可以argue这个东西是“聊胜于无”,至少说明我们观察到了这个问题、致力于解决这个问题,现在的一切都只是各种各样的尝试(pay the tuition)罢了。可是...从经济学的角度,我们不是一直在强调资源的优化配置么?

还是有一直在看J-PAL定期的update,越来越觉得这些人的目的只是争取更多的未来政策制定的话语权。有了这些话语权,就像划定了一道“门外汉”的界限,门外的人就毫无说话的底气了。想到这里,多少有点胆寒了。

其实我是有点借题发挥...唉。看过的案例越多,越不信服...

Categories
读书有感

Causal Inference?

只是习惯性的刷feedly(不再是google reader)的时候刷出来Andrew的这篇post...

The Roy causal model?

看到Heckman的时候眼睛顿时一亮。嗯,这是怎么个情况?谁来给我讲讲这里面的宿怨?

然后顺藤摸瓜的,就跑到Rubin causal model那里去了。一直对econometrics宣称的causality有所顾虑,但是没想到这东西居然还在各个领域被发扬光大(越来越体会到economist开山收徒弟的威力)。先不管这个东西的基础到底如何,从实用的角度确实符合了大众的需求——要不这些人早就失业了吧?

但是从实践来看,无论是随机试验还是RD之类的,总是有各种各样的问题,总让我对casual inference的信心越来越低...有的时候,只能一句“呵呵”打发了...

Categories
日常应用

R的outreg:输出回归结果表格via stargazer

大概被这个问题折磨的最多的人就是搞econometrics的人吧...熟悉stata的人应该都很喜欢outreg这个功能,而R里面就麻烦得多。以前一直写一个outreg()的函数来搞定这件事儿,现在看来有更方便的方法了——stargazer这个包。什么AER、QJE之类的完全不在话下。

stargazer_regression

这个包支持这些对象:

lm, glm, svyglm, plm, betareg, gee, gam, polr, survreg , coxph, tobit (AER), ivreg (AER), zeroinfl (pscl), hurdle (pscl), multinom (nnet), as well as their implementations in Zelig

还支持这些期刊的表格格式:

American Economic Review, in the Quarterly Journal of Economics, or in Administrative Science Quarterly. Political scientists can avail themselves of templates based on the American Political Science Review, the American Journal of Political Science, and on International Organization. For sociologists and demographers, the American Sociological Review, the American Sociological Reviews and Demography are available.

该收收了吧,哈哈。

Categories
读书有感

统计学习精要(The Elements of Statistical Learning)课堂笔记(二十五):降维和PCA

 降维

降维完全属于unsupervised learning了,即给定数据集,我们希望降到q维的。从这个角度来讲,降维和聚类还是有相通之处的,都是对于特征的提取。只是一个从行的角度出发,一个对列操作的感觉。

PCA(主成分分析,Principle Component Analysis)

个人觉得这也是起名字起的比较好的模型之一...乍一听起来很有用的感觉 -_-||

1. 求,使得,且最大。

PCA

直觉上来讲,就是想寻找一个主方向。

这样,求解问题为:

。所以我们只需要求一阶导数即可。

设A为对称矩阵,则存在正交阵使得,其中为A的特征值矩阵,故(列向量为特征向量)。不失一般性,我们可以排序使得(从大到小排序)。

最大特征值:

同时为x的相关矩阵,,从而

2. 找到(q维的子空间)

投影到该q维空间,这样,且最小。

A矩阵的范数:
tr表示矩阵的迹(对角线元素和)。

则上述问题等价于,求使得最小。

最小。

即使得最大(注意没有负号)。

称为数据的相似矩阵

均为对称阵,且两个阵有相同的特征值。记为A的秩,AA'的特征向量,A'A的特征向量,则。做奇异值分解,则.

由此,求得的和前述结果等价。

回到PCA。如果降维后需要重构,则,解即可。

3. 对偶PCA。如果即数据非常高的时候,可以转置后再做。

4. KPCA (kernel)PCA也可以先用核函数,即实现非线性的降维。需要注意,降维的过程需要保持可逆。

---------------

PS. PCA不适合解决overfitting的问题。如果需要解决,加regularization项。

Categories
读书有感

统计学习精要(The Elements of Statistical Learning)课堂笔记(二十二):核函数和核方法

补上笔记。这节课讲的就是大名鼎鼎的Kernel Method...

核函数(正定)

定义 , 满足:

1) 对称:

2) 正定: n个观测 正定(或者非负定)。

举例:

  • 常数——
  • 内积—— ,或广义下,其中,从

性质:

1. 封闭性

1) 正定,,则正定。

2) 正定,正定,则正定,正定。

3) 正定,,则正定。

4) 正定

5) 正定。

2. 归一性

正定,

再生核Hilbert空间(RKHS)

(走神一下:关于这个命名的吐槽猛击 -> 翻译版、 英文原版Normal Deviate

1. Hilbert空间:完备内积空间,可以视作欧氏空间的推广。

在这个空间中,我们定义:

  • 加法:x+y
  • 数乘:,
  • 内积:对称性;线性 .
  • 零元素:若,则定义为零元素。
  • 完备性:如果,则。(收敛到该空间内)。

2. 再生核Hilbert空间

给定正定,可以构造Hilbert空间H使得;且构造一个,使得,即核函数可以写成内积形式。

这样对于

核方法

1. 基本思想

将线性模型推广到非线性模型的方法(其中较为简单的一种)

,从的一个映射。举例:,这样就可以拓展为广义线性模型。

2. SVM

可以转化为:

,则

非线性变换之后,

注意此时的维数有变化()。

---------------------

如果各位更关心SVM后面的直觉,还是去看看Andrew Ng的相关课程吧...这里推导太多,直觉反而丢了一些。