Categories
读书有感

最近读paper的一些领悟

读paper易,做model不易,且读且珍惜。下面仅为个人半夜胡言乱语,轻拍~

最近扫paper的数量没什么下降,但是深入读全文的paper越来越少。一个原因大概是很多working paper 研究的问题我不怎么关心?毕竟不是读书的时候需要读很多paper来应对coursework presentation和literature review...

说说一些感受这样。看paper首先是看标题,有没有特定的关键字;有的话再去看下一步摘要,有没有有意思的地方,无论是建模方面还是结论。摘要有意思的话就标记出来,待扫完目录后去打印个别全文细细咀嚼。感觉现在扫working paper的功力越来越纯熟了,一个小时完成上述工序扫个十篇左右这样。

但是比较哀伤的是我发现大部分选出来的paper还都能读懂,尤其是实证的paper,清一水的不是DID就是RE或者RDD,最多来个IV。读起来更有意思的地方怕是背景描述这块,有很多历史人文地域常识可以了解。我想说那个ATE不是不重要啦,但这货真的不稳定(随时间迁移),做一个时间节点上的估计有多大的概率会历史重演呢?而且很多时候是需要多个因素共同作用的,就跟个化学实验似的,控制的除了原材料还有温度湿度气压等等,实验室里面这些客观条件可控,但经济发展中不可控的甚至不可观测的客观因素实在是太多了。计量更多的框架还停留于单因素分析上(当然单因素已然分析不易),是不是有点落后于时代的诉求呢?唉可能还是要期待数学工具、统计理念对于关系数据处理的更深理解吧。现在的network model还是孱弱了一点。

默默的再补充一个实践中在大数据(big volumn big dimensions)客户数据建模中的体会。很多的时候我们会倾向于找客户的原始特征,所谓的demographical variables,性别啊年龄啊收入啊。但是除了facebook这样真人社交网站,谁会告诉网站自己是男是女年方几何呢?然后为了找这些”珍贵的”数据,要不就是通过现有的数据来猜,比如买女士用品的八成是女性;要么就是通过调查来获取一部分人的真实社会属性。然后呢?扔到模型里面回归去...

我想说,若是前一种,何必绕着弯子从可观测的数据生生的去猜不可观测的数据,然后再用猜出来的数据去预测其他东西?直接用可观测的数据好了。本来就是社会属性->特定可观测行为->预测未来行为这样的路径(比如我知道啊买尿布啤酒组合的八成是新晋爸爸,但是我只要知道你买了尿布啤酒日后就也需要婴儿车日后消费潜力巨大就足够了嘛,我干嘛一定要去知道你是男性已婚已育?看看你买的尿布牌子我大概也知道你家的消费层次和接下来的品牌层次偏好了,何必去苦苦的猜你的收入?),有点像经济学里的“显示偏好原理”,或者有向的贝叶斯网络这样(给定上层节点信息,上上层节点信息无用),何必这么折腾...若是后一种,还需要去费时费力不讨好的调查?又不是以前数据尤其是观察维度稀缺的时代了。每次见到刚被象牙塔教育好的遵循123456黄金律步骤出来的建模者,我都忍不住先深深的吸一口气冷气然后苦口婆心的讲一下为什么这些东西其实不那么重要...

都是被现有的实证paper毒害的,动不动就是入户调查数据。哎,人家是做田野实验的需要手工搜集数据各种来之不易,和你们玩大数据的到处都是蛛丝马迹不一样啊!干嘛只会比着葫芦画瓢,明显使劲的方向不怎么对嘛。学界没数据啊所以没办法,业界一堆数据还愁数据搜集?随随便便做个随机试验前后数据爱取多少取多少...喵,尤其是做预测模型的,其实可以不用那么折腾呀。读paper易,却也是取其精华弃其糟粕,玩的灵活才开心嘛。

再啰嗦一句好了,学计算机和数据挖掘出身的只学怎么在现有数据基础上建模,不学基本的数据搜集实验设计这些统计理念,所以不会往这边想;学统计的又被一群没玩过大数据的长江前浪所禁锢,框架就在那里,你见或不见。估计等现在这一辈成熟了下一辈人就真的是站在巨人的肩膀上了。

Categories
事儿关经济

写论文 or 写程序?

毕业论文写了几天了,越写越痛苦,时间太紧,很多东西来不及细致的想想只能先加上去,唉。

这次的论文比较的,诡异。我第一次感觉到写一篇经济学论文需要用这么多代码。以前写论文的时候,最多有几个方程需要解一下,或者一些数据扔到计量软件里面几行命令跑一下就OK。所以就算我算法很烂,写程序的水准也很懒,但是还是可以勉强应付的。但是这一次,因为算一个概率和期望算不出来,只好求助taiyun。没想到很快的taiyun就给了我一个程序,用来模拟结果。虽然模拟的不是真实值,但是大致的趋势出来了,很漂亮~

接着,我又突发奇想,来个“蜂窝状”的东西。搜了半天不知道蜂窝图对应的矩阵格式应该怎么写,于是乎就开始求助另一个程序高手——X。此人不愧是学计算机的,一边比着编程大赛,一边三下五除二就把程序写出来了。可是问题是,他用的是C语言,我机子上却没装C的编译器……我琢磨了半天想把它改成R的,结果死活有问题。X很仗义的开始帮我改,先是自己安了个R(嘿嘿,怎么我也成功一次诱惑/强迫别人装上了R),又开始研究R的语法(X语录:我这代码服务真到位...)。最后在我俩都快面临崩溃的时候,他说,要不给我个编译完的C程序,我自己调用吧。我想了想,OK啊,只要输出的是文本文件,我在R里面读入就可以了嘛。于是乎,他很快的给了我一个很好用的程序,然后我就开始舒舒服服的输出txt,最后开始舒舒服服在R里面舞蹈弄枪,望着出来的蜂窝图傻傻的嘿嘿笑。

到最后我也不知道我是在写论文还是在玩乐了,把程序的参数调一下,然后自己就嘿嘿的对着屏幕听着CPU小风扇转悠的声音美滋滋的看结果。在几张图的衬托下,很快论文就写了七八页了。不过不知道最后能不能交英文的论文啊,我怕自己偷懒就一直用英文写下来的,要不用中文写完了肯定不会脑子抽风的翻译成英文。天知道……其实我觉得最boring的事儿就是把自己写的英文的东西翻译成中文,这不是一边翻译一边让自己鄙视自己的英文表达能力多么差么?看着中文那飞舞的流光溢彩,再瞅瞅干巴巴的英文句子,只想说“我不认识写文章那个人”。特别能体会到一句话,貌似是老舍还是茅盾或者谁谁说的,“翻译体现的是一个人使用译过来的语言的能力和文化底蕴”。一个中文积蕴深厚且能读懂英文的人,往往比一个中文平平而英文出口成章的,更能译出好的中文文章。不过话说回来,论文这种东西,不就是干巴巴的么?除非你对某个模型感兴趣,否则我估计没几个人会愿意读一篇学术论文的——真的很boring。说起来翻译,暑假如果有时间,我真的很想翻译一本书啊,但是不知道有没有出版社肯去买版权,呃……这年头,我理想主义,不代表就能找到理想主义的出版商来搞定这事儿。

最后,这一次深深的接受了“题目要起小一点”——从初中开始学习写作文的时候老师就一直唠叨的话。这次很豪气干云的写了一个很简短的题目,写完了就知道自己挖了个坑只能自己跳下去了。很显然,能把这么简单的题目论述好是一件很难很难的事儿。于是乎,假惺惺的写了一句“this is the first part”。反正只是我的manuscript嘛,别人也看不到。别人看到的肯定是包装好的。本来模型中想加入动态啊,博弈啊,不确定性啊等等时髦的东西,后来发现还是一个“代表性人物”分析起来比较简单,于是乎就跟博弈没关系了。“不确定性”加不加似乎也没啥影响,反正我只能模拟结果又不能真正用扰动项去表达啥。至于动态……好吧,一个贴现因子搞定。本来还很复杂的设什么时间之类的,后来发现还不如一个贴现因子delta好用。于是就狠狠的把一大片的废话论述“注释”掉了(还是没舍得一口气删了,不过在lyx里面注释标签一闭合,也能做到眼不见为净)。

写着写着,和自己起初的想法有点越走越远,每次写论文都是这样,最后写出来的肯定不是自己打谱要写的——除非写实证。不知道能不能够应付毕业……唉。其实还是很想研究研究元胞自动机的,taiyun一提这个东西我就精神起来了,看了半天介绍好像有点眉目了,但是想不出怎么拿来玩玩。于是乎,先扔到那里吧,看看毕业论文怎么能应付交差再说。