Categories
网络新发现

那些毫无节操的经济学研究(一):JJ尺寸与经济增长?

无聊的时候读几篇paper提提神总是好的...太严肃的看久了,还是找点调节操的吧。

source一般是weibo...神人出没之地呀!

第一篇就是:

Male Organ and Economic Growth: Does Size Matter?Tatu Westling, University of Helsinki and HECER

嗯,人家作者就是扛着卫生经济学(health economics)大旗的啦~所以有这么篇文章不是很正常么?

结果发现,JJ大小和经济发展水平居然是倒U型相关的。嗯...如果想要知道JJ大小到底是遗传基因还是后天营养(经济发展水平较高的国家营养一般会更好)的影响大,是不是可以研究一下发达国家的亚裔移民后代相比于他们父亲的penis size的generation difference呢?

仅供娱乐,认真就不好玩了。

Categories
读书有感

Bootstrap + subsample: simple, efficient, then elegant?

继续昨天。早晨一起来,看到施老师的一句简短评论,瞬间人就清醒了。然后跟做错了事的小孩子似的,惴惴不安的跑到office里面,翻墙,开始下paper。

现在的节奏基本上是白天开会写代码,晚上回家看paper,哎,不看心里总觉得好惶恐。还好中间等车等了蛮久的,顺便就借着六七点昏黄的路灯把这篇不算太长的paper看完了。有趣的是等车的时候碰到一位同事,然后我俩就开始呱唧呱唧的聊起来统计推断了...不知道当时旁边的路人是不是一道黑线,幸好当时把ebay的牌牌藏在了衣服里面...

这篇不算长的paper是:Bootstrapping Big Data,UC Berkeley 计算机系一群人鼓捣出来的。idea很简单(符合第一标准,simple),就是在大数据上(无放回的随机抽样)取一些subsamples,然后在这些subsamples上面做bootstrap,然后把结果取平均数。

这样的好处显而易见,天生的分布式算法,把数据随机分布到各个计算节点就可以了。然后bootstrap也不用占那么大的内存了,空间时间都省掉了,所以符合第二标准:efficient。

最后,就是还是比较effective的,有着良好的渐进收敛性质。和直接的bootstrap相比,它不仅保持渐进一致,而且有着更高的收敛速度,还是天生并行的...过年回济南的时候joke童鞋(高中同学)去火车站接我,然后我们就兴致昂扬的聊起来大数据和算法并行问题了...是不是有点天雷滚滚?哇咔咔,大过年的...好久没见竟然是如斯叙旧,汗。

此外,还可以结合binning的思路做一些weighted calculation,这样又进一步节省了时间。

不知道这样是不是就足够的elegant了...我看了一眼converging rate 还是比较好看的。伪代码思路也是简单得很。还可以用在各种现成的线形非线性、参数非参数模型上,真是瞬间变身并行高富帅。貌似和前段时间看到的rmr2包里面做OLS并行的思路有点像,待我细细研究一下。

algorithm

唯一的concern就是这东西更适合hadoop而不适合teradata,哎。我没法在TD上控制节点的分配,这个比较讨厌。Hadoop可以直接写并行map reduce,就会方便很多了。

 

先看了这一篇简介,后面慢慢地研究一些理论证明什么的,有点too good to believe...还是先找点数据测试玩玩吧^_^
efficiency

Categories
读书有感

Binning in Computational Methods: Gaussian Kernel Regularization, etc.

成天跟大数据打交道,最恨的就是out of memory这种错误。诚然,可以通过加大内存等方式来保证运行,但是随着数据量的增长,时间上的损耗也是很厉害的——比如时间复杂度为O(n^2)甚至更高。所以为了一劳永逸的保证计算的运行,需要在算法的改良上做一些文章。有了一个简单的类似于binning的idea,就去厚颜无耻的骚扰施老师了。

然后就顺利的套到了一篇paper,我能说我是瞎猫走狗屎运了么?居然还真问对人了,如获至宝的搞到一篇paper:

Yu, Bin, and Tao Shi. "Binning in Gaussian Kernel Regularization." (2005).

兴致勃勃的读起来,page 1 the history, interesting; page 2, ok...loss and penalty function ; page 3, oh...; page 4, fine...page 5, what the hell?瞬间扑面而来的各种公式一下子把我打回了原形——没学过就是没学过,再装还是读起来一片茫然。

然后开始迅速的往后找,找到了binning method的定义,嗯,不就是画格子嘛,和我本来要的思路差不多,多少找回一点感觉(binning的想法就是直方图,只不过是高维的扩展,把点aggregate到一个个格子,然后统计频数就可以啦,或者固定点的数量来确定格子)。跳过若干公式...直到后面的结果,眼前一亮:

2013-07-03 02_20_25-2006_Shi_Yu_Stat_Sinc(1).pdf - Adobe Reader

嘻嘻,就是这个!时间缩短至0.4%!神啊,比我想象的效率还高很多。这点loss in accuracy完全可以忍受嘛,重要的是——时间!时间!

然后问题就是,这个binning该怎么定义为好呢?看他simulate的结果,嗯,好像在这个case中每个格子的点到了9以上误差开始上升。

2013-07-03 02_20_10-2006_Shi_Yu_Stat_Sinc(1).pdf - Adobe Reader

还好啦对不对。具体的格子数量可以用实际数据测试一下,看看哪个更符合实际需求,直觉上应该是跟X以及Y的(联合)分布有关的...

好吧,我这是高射炮打蚊子么?我只是想在一个很简单的线性回归上面做一些binning...喵。多学一点总是好的,俗语嘛,“不畏浮云遮望眼,只缘身在最高层”。

p.s. 我也不知道为什么作为一个算法基础极为薄弱的、数学公式看起来依然会晕晕的、看到各种hilbert space开始感觉眼前飘过一团云雾的孩子会开始研究算法的问题...真的是被折磨太久了么?不过有时候看看这类的paper还蛮有裨益的...

相关文章

Categories
读书有感

职场治愈系——Rework

这本案头书书已经前后说过很多次了,我不知道大家读这本书是为了什么,或许是寻找一些创业的启迪吧。我只是当作职场的治愈系,工作烦闷之时拿出来读读,抚慰一下烦躁的心。

其实说它治愈系,是让人觉得有时候枯燥的工作也是有着自己的意义的,大家都是这样,没有人可以特殊。只是这样的苦闷其实也是有意义的,当你不断的磨砺之后就可以开始有所升华,然后看到别人可能无暇关注的风景。对于耐心极差的时刻,可以拿出来勉励一下前进的动力。

53d5aaeajw1e0miie2f4ej

其实这本书英文写的很简单,都是短句子,是很好的练习撰写具有说服力的英文短句的参考材料。语言嘛,本来就不是需要多么的雍容华贵——太过阳春白雪的那只是文学作品,不适合下里巴人通读。这本书也是如此,简单的词汇,简单的句式,简明的语言。就像在一堆繁杂的乱纸团里面看到一丝清晰的脉络,多少眼前一亮吧。

这类的着重于讲道理和传输文化理念的书其实很多(Amazon上直接很露骨的放在“成功学”一栏),大多的时候也是味同嚼蜡,速度之后毫无感触的就扔到一边去了。Rework倒是还好,会穿插一些实际的例子,让经历过类似折磨的人很容易有所共鸣,感同身受怕就是这样的意思吧。反正每一节也很短,前后也不见得有多少关联,随便拿出来翻翻也是挺好的。尤其是心情烦闷的时候。

也不知道应不应该摘抄一些东西,怕写的太简单了就成了我最讨厌的那种罗列短句式道理,读起来貌似不错但实际没有任何执行力。不过确实它的outline还是一个比较好的索引,当你遇到类似的情况、当局者迷、无暇站出来清晰地想一想事情的来龙去脉的时候,翻翻他的case,多少能有所启发。至少说明,你所经历的事情不是最糟糕的,别人曾经做的更糟更烂。就像一个曾经广为流传的帖子(由于版本众多,感兴趣者请自行搜索)——

理工科的学生生来就是毁灭世界的

这种错误都被犯过了,我那一点人畜无害的错又算得了什么?

本来是想粘一下他的content的,后来发现有人已经做好mind map了,就直接截屏之~我是把node都展开了,原始的可以见http://www.mindmeister.com/49405294/rework-table-of-contents

rework_content

点击看大图

Categories
事儿关经济 读书有感

一些实验设计的小聪明

主要是最近看到了一系列相似的文章,就忍不住说说这一系列文章的好玩之处。这一系列的文章主要是用假的CV来投简历,然后根据HR的电面反馈来探究CV中不同因素对于求职者的影响。当然一开始最关注的就是是不是就业市场中间有性别歧视——即给定两个能力一模一样工作经历也类似的,一男一女,难道女生会因为性别原因而遭受歧视么?

鼓捣出来这种折磨我们亲爱的各大企业HR的方法的就是芝加哥大学的Bertrand, Marianne和Mullainathan, Sendhil (其中后者已经转战到哈佛去了),以及他们那篇著名的AER论文:

Bertrand, Marianne and Mullainathan, Sendhil (2002). "Are Emily and Jane More Employable than Lakisha and Jamal? A Field Experiment on Labor Market Discrimination,". American Economic Review94 (4): 991. doi:10.1257/0002828042002561.

哎,可能开始接触计量经济学或者劳动经济学的,这都是逃不掉的一篇paper吧。idea 真的是很简单:搞一堆相似的简历,只是姓名和性别有所不同,然后投到各大公司,追踪反馈。这样就回答了那个本来看起来无法回答的问题:我们观察到的女性平均工资低于男性,是因为性别歧视还是因为女性的能力较男性差一些?在这里相似的简历代表求职者有着相似的能力,所以能力那个因素就变得可控了,只需要探究性别上的差别就可以了。这样就把一个本来没法做随机试验的内生性问题,巧妙的用另外一种实验设计来稍稍回答了(毕竟只是电面通知,而不是最终的录取。CV容易fake,面试就没办法了)。

结果这篇文章一出,因其idea简单、可行性好、成本低(找几个学生发发邮件就可以了),一下子受到很多被折磨经久的经济学研究者的青睐,然后类似的paper便如雨后春笋般的爆发——不仅仅是美国公司的HR开始遭殃,瞬间各国有着发paper需求的劳动经济学家们开始纷纷效仿、一拥而上,先是席卷欧洲大陆,然后亚洲自然也难以逃掉。嗯,于是就看到下面这些paper:

  • 西班牙:Albert, Rocío, Lorenzo Escot Mangas, and José Andrés Fernández Cornejo. "A field experiment to study sex and age discrimination in selection processes for staff recruitment in the Spanish labor market." Papeles de trabajo del Instituto de Estudios Fiscales. Serie economía 20 (2008): 3-46.
  • 澳大利亚:Booth, Alison, and Andrew Leigh. "Do employers discriminate by gender? A field experiment in female-dominated occupations." Economics Letters 107, no. 2 (2010): 236-238.
  • 英国:Riach, Peter A., and Judith Rich. "An experimental investigation of sexual discrimination in hiring in the English labor market." Advances in Economic Analysis & Policy 6, no. 2 (2006): 1-20.
  • 中国:Zhou, Xiangyi, Jie Zhang, and Xuetao Song. "Gender Discrimination in Hiring*: Evidence from 19,130 Resumes in China."
  • 意大利:Patacchini, Eleonora, CEPR Giuseppe Ragusa, and LUISS Guido Carli. Unexplored Dimensions of Discrimination in Europe: Homosexuality and Physical Appearance. No. 9179. CEPR Discussion Papers, 2012.
  • Duration Dependence and Labor Market Conditions: Theory and Evidence from a Field Experiment” (with Fabian Lange and Matthew J. Notowidigdo). Quarterly Journal of Economics, Forthcoming.

其他的我暂时没有搜了,已然觉得足够了。最后上一张中国劳动力市场的结果——怪不得现在研究劳动力市场都要把中国作为一个outlier呢,华夏女性实在是太强了!

gender_preference