Categories
经济、IT观察与思考

一些观察

随便写写,随便看看。

1. 关于研究方向。

读的paper多了,发现大多数人的研究路数无非两种:

  • 一种是锚定一个问题,然后用尽各种办法来看哪种可解。换个通俗的就是,车坏了,找出一堆工具来看看怎么可以修好。
  • 另一种则是,沿袭一套方法论的路数,试图解决越来越多的问题。通俗的讲,就是木工不满足于打打家具,还要去试试电工水工装修工。

你说孰优孰劣?没有高下之分。谁也说不好一篇好的研究到底是问题导向的还是方法论导向的。不过鉴于一般来讲方法论比较容易训练出来,所以有的时候看似包装的很漂亮的paper可能正是这个方法灵了然后倒回头来包装问题本身。

本以为这个只是看paper时候的感觉。后面发现,工作其实也不外乎如此。有的人凭着一门专业技能,比如编程,就可以在不同部门之间切换来切换去,反正总有需要用到编程的地方。有的人有一些具体问题,然后就广撒网找来各种背景的人帮忙解决。前者最后进化为技术专家,后者进化为大BOSS。

2. 关于建模

说到模型,反正上来都是那句至理名言:

没有模型是正确的,只有一些是有用的。

所以一切试图证明自己是真理的模型都是无用功。如果是真理,搞成体系那就叫他理论,可以慢慢证明就叫做定理,不证自明那就叫公理好了。反正我觉得说某个模型是正确的这种言论都是挺无聊的。

基于这一条,在实际商业环境中建模,就不要一开始给自己摆太高的期望。就跟上面说的,很多时候问题都是第一类人发现的,他们只是寻求有着不同技能的第二类人帮忙看一下,实践中谁好用就用谁。所以一群第二类人内部争来争去,什么机器学习流派啊、数理统计流派啊、计量帮啊、物理统计帮啊还是算命仙人这些其实都不那么重要...比如最近世界杯大家都在预测,那么不管你是章鱼还是小丸子还是霍金,只有预测对了大家才信你。

所以在学校里被某个流派洗脑洗的深入骨髓的,可以醒醒了。不要一上来就摆出自己是真理这样的架势。每个人在象牙塔里都是这么教的。

3. 关于统计建模

如果大家笃定就要用统计的方法了,那么要解决的问题就无非是:搜集数据(变量)、选择模型、修改参数以达到最优。

具体到项目,搜集数据这个肯定是大头。每个学过统计的都被教导过“garbage in, garbage out”。只可惜大部分老师讲完这句话之后,学生并没有多少机会实际的去搜集数据,或者更直接的去想要怎么搜集数据。大部分学校里面的训练(尤以网上数据挖掘竞赛之时)都是,数据集给定,怎么找个更好的模型来预测/评估/解释。真到了项目上需要搜集数据了,大部分人的做法无非就是先找张纸把想到的变量都分门别类列出来,然后把所有可能拿到的数据都扔进去试试,从简单的线性回归或者分类器开始,到非线性的各种模型都扔进去跑一遍,反正这年头计算能力不是瓶颈,总有合适的模型自己可以去做变量选择。

听到这里,貌似也挺好啊。是啊确实没什么不好,如果大家都有充足的时间慢慢玩的话。可惜的就是这种无脑流在大多数情况下都是受制约于时间的。于是为了省时间,要么就某些麻烦的数据不搜集了,要么就某些计算复杂的模型不去跑了。差不多就好了。解决问题了么?可能也差不多解决了70%-80%。

与此同时还有一类业务流派。这类人特别像医生似的,是某个具体领域的专家,专到什么程度呢?基本上他熟悉的地儿有个风吹草动都逃不过他的眼睛。直觉很准,或者说经验实在是太丰富了。跟这个流派的人一起工作很好玩,他们想到一个问题大概的给你指一个方向,大部分情况下八九不离十,差不多就可以把问题解决了。就算事后需要稍微建建数理模型多做一些分析和验证,基本也不会太麻烦。每当此时,不禁大呼一声畅快,瞬间觉得自己以前的思路真实的麻烦爆了。嗯,爽归爽,不过这种流派需要在一个领域浸淫比较长的时间,逃出他的领域就比较难说了。

4. 关于这些碎碎念

基本上就是想说,容易训练出来的都是不重要的...那些东西都进化很快,学术界不是白白养了一群人浪费的(虽然也挺浪费的),所以长江后浪一定会把前浪拍死在沙滩上。

与此同时,业务知识也不是那么重要的。经济环境变化太快,谁也不知道明天这个世界会变成什么样子。

那既然都是以不变应万变,那还是选一条比较开心的路子。总是需要合作的,这个世界已经复杂到没有可以一个人解决的问题了。

Categories
读书有感

擦肩而过的全球化,我印象中的「重庆大厦」

每每写这类文章,总是倾向于带点煽情的、随意流淌的感觉。五月份去香港,在书店里无意的一瞥看到了《世界中心的贫民窟:香港重庆大厦》这本书,如获至宝,欣然收入囊中。迄今约有一月光阴,该写点东西刻画一下记忆的片段了。

关键词1:背包客的天堂

几年前,很随性的说走就走,然后就跑到了香港。事先没有什么计划,到了香港打给了几个好朋友,然后一个人先来接我。首先便是找个住处。我们行走在熙熙攘攘的弥敦道上,我的注意力还停留在两侧琳琅满目的店铺,朋友便指引我进入了重庆大厦。我们排队等待电梯,我年少无知的没有去试图理解周围人奇怪的目光。最后花了很低廉的价格在重庆大厦的某一层寻得了一间小屋。然后扔下行李,我们就开心的跑到附近的海港城逛街去了。那不是我第一次去香港,却是第一次在香港寻找旅馆。完全无知,只感觉重庆大厦和旁边的美丽华什么大厦之类的没什么区别,反正香港那种几十年的老楼都写着xx大厦的。那时候也对香港的宾馆没有概念,只是不会去住青年旅舍罢了。

朋友说,重庆大厦的咖喱很有名。嗯,我脑子里那时满是港式点心,完全对咖喱无反应。当时在楼下的卓越还是莎莎买了很多东西,记不清了。反正感觉香港好便宜。然后就跑去和朋友们聊天喝咖啡品甜点了。

在下一次去香港住的便是旁边的喜来登,那个时候也没感觉为什么喜来登就可以比重庆大厦贵那么多。房间也是小小的。光线也没有特别好。嗯,那时我对香港的感知只有尖沙咀这一块儿,完全不知道港岛那边和这边有什么不同,除了海洋公园和跑马地在那边。嗯,那个时候完全不知道重庆大厦的传奇。

直到后来,看了《重庆森林》,才恍然感悟到这座大楼在香港文化中的印记。王家卫的奇幻迷离的叙事方式给我的心灵带来了无数的冲击,原来我曾经呆过的地方可以是那么的传奇。看这本书里面说到,很多香港本地人穷其一生也没进过几次重庆大厦,大厦里面的旅馆也不招待本地客,据说是为了防止黑帮渗入,总之很神奇的感觉。

唯一庆幸的是那一次没有遇到火灾,否则以书中描述的大厦消防设施来看,怕是小命难保。

关键词2:最好的咖喱

上面说到很多本地人一辈子也没进过几次,那少有的几次怕就是为了舌尖上的贪念,来吃吃咖喱的。曾经有印度朋友说过,伦敦的英国菜烂得一塌糊涂,却有好吃地道又卫生的印度咖哩,这大概是一种殖民的印记。可惜我一直没有机会去伦敦,也就一直没有机会品尝那里的正宗印度咖哩。

在香港,在重庆大厦,其实行色匆匆的人群中印度人并不少,只是我也没有特别的兴致一个人去重庆大厦底层的那些餐馆点一桌印度咖哩。想想其实有些颇为遗憾。以前是没有那么的贪婪,后面则是多多少少不敢进去了。其实明知道重庆大厦对于非港人来说都是蛮安全的,只是那种怪异的氛围、那种被周围人目光灼烧的感觉颇为难耐。

我不知道那些小贩们会不会试图推销我廉价的电子产品,我都是匆匆行过目光都不敢乱扫;后面看这本书上说除了经商的还有很多职业妓女,我也在想当时哪些是妓女哪些是收租婆哪些是老板娘哪些是清洁工。貌似很多第三世界的肤色,很多清洁工貌似是菲律宾或者印尼人,其实我也不太分得清;有些商贩确实黑黑的壮壮的,现在想想应该是书中说到的非洲商人;还有很多操着粤语却可能是大陆过去的小老板们。林林总总,大厦里面的气味依稀记得并不刺鼻,可是在那其间穿梭的诡异感受无形中加剧了一些气味上的感官上的刺激。

这种当时无知事后顿悟的体验,人生大概也没几次。前一次大概还是在巴黎的先贤祠,默默地看过一群坟墓毫无感觉,出门的时候无意的找到一册中文手册才恍然大悟的跑回去又膜拜了一遍。逛过了重庆大厦,才看到这本纪实,不禁再次恍然。

关键词3:全球化缩影

很多时候媒体上充斥着诸如“港人排外”的言论,可是一般此类体验都与一个独行的女孩子无关。唯独两处:高级酒店和的士。在香港住酒店,我一般是跟前台说英文的,感觉他们的英文多数还是比普通话流利的。打车,英文搞不定,普通话就要承受司机爱理不理的态度。后面学乖了,酒店里面拿一张名片卡,直接给司机看名片。其他时间大都是借助公共交通,反正游客可能去的地方也不多。

可是港人排外,这个外是单指大陆人,还是所有国籍?从入境政策上看,未免有点过于针对大陆了。香港给大多数国家的免签都是发达国家的,应该是英国“暂借”时期的残留。在日不落帝国的光辉下,香港应该是属于某些联盟之类的,可以直接相互免签的。后面不属于英联邦了但这些政策也没有一时改掉。免税港的发展更促进了贸易往来,高端的全球化可能更体现在繁荣昌盛的金融业,而低端的全球化便缩影于香港一个个重庆大厦般的“独立自治体”中。香港警察是少有干涉重庆大厦里面的。这不得不说在尖沙咀这种繁华核心区是访客们一时难以想到的。

香港在很多大陆人看来是自由的代言词。可以买到禁书,可以不用翻墙,可以不用交税,可以不用担心食品安全,等等在大陆有点越来越稀缺的自由。重庆大厦则又是香港繁华中心的自由港。你不知道刚刚和你擦肩而过的那个送货小哥是不是打黑工,也不知道老板贩卖的是不是合法商品。大厦入口的那几个货币兑换处据说有着全港首屈一指的汇率和货币种类选择,以及从高效到廉价任君选择的跨境汇款方式。多种货币对应的是多元的人的故乡。高端的全球化衍生了热钱赖以生存的免税群岛们,而低端的全球化却也离不开这些游走在光明和黑暗边缘的地上地下钱庄。

至今难以想象,那些非洲远道而来的拓荒者们是怎么在两周不到的时间,扫荡着廉价的商品,然后塞满几个外表破烂的旅行箱,还要练就一番油嘴滑舌的本事来应付本国腐朽而贪婪的海关。这其中的风险自担,而早期拓荒者的回报也相当可观:买房、娶老婆、当老板。念及此想想我们天天趴在网上海淘美国的便宜货,然后各种找人带回来,真的是弱爆了。完全没有冒险家精神。

这些是一类人群的故事,却也是重庆大厦的故事。早起的拓荒者并不依赖网络互通有无,他们就是站在重庆大厦街边的7-11便利店,在夜色下面日复一日的重复或者更新着那些对话。有些人还在,有些人走了,有些人新来。这个群体有着极强的流动性,涌动的荷尔蒙带动了性服务以及毒品的需求。然而却没有丝毫的违和感。好像这些都是重庆大厦本来就有的生活印记。生意无所谓肤色,无所谓种族。都在异乡,都没有主人家可以作客。

碎语

经济,贸易,娱乐,人性。有底线有上限,每个行业都有自己不为人知的规则和秘密。这本书的作者是一位人类学者,他的文字灵动而充满人性。而冰冷的是法律,是一群人们用来制约人性的规则。重庆大厦不远便是星光大道,往西是天星小轮的码头,怀旧的游客或者繁忙的本地人往来不绝;往东是红磡隧道和体育场,见证着穿梭港岛的车流和一场又一场音乐盛会。往北是商业街和九龙公园,繁华或安静。如果不是历史无意间造就了这么一个独特的存在,谁也不会把重庆大厦规划于这么繁华的市中心。我们理解的无论是贫民窟还是避风港,都仿佛是城乡结合部的事情。然而他存在着,便有他的意义,无论是顽强还是无赖。

说到底我还是个无意闯入的游客。没有过多的交谈,躲避着纷杂的眼神。好像坐着越野车在非洲草原行驶一般,里面和外面永远隔着一层玻璃,一层彼此难以理解的屏障。

Categories
读书有感

Constitutional Law by Yale 听课笔记(四)

这门课真的是超级耗精力,video很长,还有很多资料要查,还得写很长的assignment...勉强跟着,多少有点力不从心了...好在结束了。

笔记零零散散的,更多是边写作业边查资料所得。这门课后半部分,professor Akhil Reed Amar 主要是在讲unwritten Constitution,就是说那些历史啊典故啊什么的,虽然没有具体写在宪法的8000字里面,但是还是彰显着宪法的精神和光辉的。大致的框架和可以从Amar的这本书里面看出来:

America’s Unwritten Constitution : The Precedents and Principles We Live By.

书可以在amazon上搜到,不过我看到一篇书评还蛮好的,很提纲挈领的总结了一番。抄一下:

  • The Enacted Constitution: Amar undermines the constitutional text by trying to demonstrate that we don’t actually know what the “official” version says anyway. And he goes on about “the Year of our Lord” about five times longer than one might have thought possible, debating with himself about whether that reference in the Constitution collides with the First Amendment.
  • The Implicit Constitution: Amar relies mostly on the predicate-act canon and the whole-text canon. The duty to do X includes the authority to do Y if Y is necessary to carry out X. On the whole, he stands on pretty firm ground here.
  • The Lived Constitution: You have a constitutional right “to have a pet dog, to play the fiddle, to relax at home, to enjoy family life with your loved ones, to raise your children, to wear a hat.” You get the idea. So how do you enforce your warm and cuddly constitutional right to “enjoy family life with your loved ones”? Amar doesn’t say.
  • The Warrented Constitution (that’s not a misspelling but a lame pun in homage to Chief Justice Earl Warren): The Warren Court (1953-1969) honored the “spirit” of the Constitution (and the letter, too, Amar argues unconvincingly). The Warren Court, of course, represented the official unmooring of constitutional law from the words of the document that the Court was supposed to be “interpreting.”
  • The Doctrinal Constitution: Amar asserts that Roe v. Wade was correct because it was “rights-expanding”: he argues that “a case that construes a textual constitutional right too narrowly is different from one that construes the right too broadly. Even if both cases come to be widely embraced by the citizenry, only the rights-expanding case interacts with the text of the Ninth and Fourteenth Amendments so as to specially immunize it from subsequent reversal.”
  • The Symbolic Constitution: “The most important thing to understand about America’s symbolic Constitution is simply that it exists, Amar writes:

Americans of all stripes can easily name certain texts that stand outside the confines of the written Constitution yet operate in American constitutional discourse as privileged sources of meaning, inspiration, and guidance. True, once we move beyond this core set of texts, the outer boundaries of the canon are fuzzy.

   Amar’s examples: the Gettysburg Address and Martin Luther King’s “I Have a Dream” speech.

  • The Feminist Constitution: In Amar’s view, all law relating to women was undermined by women’s suffrage: “under an entirely plausible vision of America’s unwritten feminist Constitution, judges soon after 1920 could have held that laws such as these [relating to contraception and abortion] were valid only if reenacted by a legislature elected by women voting equally alongside men. As for these laws, perhaps judges should have wiped the legal slate clean in 1920, by striking down the old laws and thereby obliging states to put the matter to a fresh vote.” To quote this is to refute it.
  • The Georgian Constitution (the name is based on that of George Washington): This chapter is mostly padding based on George Washington’s presidential (and precedential) actions. Perhaps it was intended to relieve traditionalists after the unreality of the preceding chapter.
  • The Institutional Constitution: Again, this is padding for traditionalists. “[P]ost-1789 institutional practice thus furnishes a powerful lens through which to read the 1789 blueprint.”
  • The Partisan Constitution: “Most of the rules and roles textually delineated in the original Constitution — for House members, senators, department heads, vice presidents, members of the electoral college, and so on — must today be reread through the prism of America’s two-party system.” But why?
  • The Conscientious Constitution: Here we get to the personal preferences of judges: “[T]here is a proper place for conscience — a concept that forms part of the necessary, albeit unwritten, substratum of American constitutionalism.” If you’re a judge, follow your bliss.
  • The Unfinished Constitution: This is the great morphing Constitution that is “still to be written, the hoped?for Constitution of 2020 — and of 2121 and 2222.” This constitutional morphing is our “constitutional donation.” Amar’s doubt about it is confirmed in his use of surely: “Though this [donation] does not reside on the clear surface of any explicit constitutional text, surely it forms an integral part of America’s unwritten Constitution.”

实在是每一节都很长...各种历史背景事件来龙去脉这样,读起来蛮累的。我个人印象比较深的是乔治华盛顿,比如他的言行举止言传身教确立了很多传统;然后就是一些彰显人文精神和时代光辉的文字演讲,比如大家耳熟能详的I have a dream;最后就是美国法院习惯的 stare decisis 即“遵循先例”,各种案例比如为什么现在是一人一票这样。宪法修正案也有很多故事什么的,学法律的过程除了看条文本身还要熟知很多cases,好累。我的理解是,法律是一个社会的规范条文,所以这东西不是证实或者证伪这么简单,理解法律除了需要抽丝剥茧之外,还考验人的综合和联想能力。一句话,费时的熟练工种...

虽然我是三天打鱼两天晒网,deadline之前奋力突击类型的,但是真的从这门课学到了很多东西。理解一个社会制度远远比理解一个数理模型难的多...所以宪法学起来其实比税法之类的经济法难很多,就像以前常说的一句话,经济学家考虑的更多是效率而非公平(efficiency > fairness),而法学家考虑的是社会整体的诉求和运转规则。出发点完全是不一样的。利益分析简单,而情理分析就好难。

Categories
日常应用

从R到python散记(结束更新)

算是留条后路吧...anyway学门新语言总比学门新的课程简单一些。

1. 循环
Python 君貌似不是很喜欢操纵下标(不是C),循环比较直接:

for i in forset:

而不是for index in range(len(forset)): i=forset(index)

While和R的用法基本一直。也可以直接break跳出。

Categories
读书有感

最近读paper的一些领悟

读paper易,做model不易,且读且珍惜。下面仅为个人半夜胡言乱语,轻拍~

最近扫paper的数量没什么下降,但是深入读全文的paper越来越少。一个原因大概是很多working paper 研究的问题我不怎么关心?毕竟不是读书的时候需要读很多paper来应对coursework presentation和literature review...

说说一些感受这样。看paper首先是看标题,有没有特定的关键字;有的话再去看下一步摘要,有没有有意思的地方,无论是建模方面还是结论。摘要有意思的话就标记出来,待扫完目录后去打印个别全文细细咀嚼。感觉现在扫working paper的功力越来越纯熟了,一个小时完成上述工序扫个十篇左右这样。

但是比较哀伤的是我发现大部分选出来的paper还都能读懂,尤其是实证的paper,清一水的不是DID就是RE或者RDD,最多来个IV。读起来更有意思的地方怕是背景描述这块,有很多历史人文地域常识可以了解。我想说那个ATE不是不重要啦,但这货真的不稳定(随时间迁移),做一个时间节点上的估计有多大的概率会历史重演呢?而且很多时候是需要多个因素共同作用的,就跟个化学实验似的,控制的除了原材料还有温度湿度气压等等,实验室里面这些客观条件可控,但经济发展中不可控的甚至不可观测的客观因素实在是太多了。计量更多的框架还停留于单因素分析上(当然单因素已然分析不易),是不是有点落后于时代的诉求呢?唉可能还是要期待数学工具、统计理念对于关系数据处理的更深理解吧。现在的network model还是孱弱了一点。

默默的再补充一个实践中在大数据(big volumn big dimensions)客户数据建模中的体会。很多的时候我们会倾向于找客户的原始特征,所谓的demographical variables,性别啊年龄啊收入啊。但是除了facebook这样真人社交网站,谁会告诉网站自己是男是女年方几何呢?然后为了找这些”珍贵的”数据,要不就是通过现有的数据来猜,比如买女士用品的八成是女性;要么就是通过调查来获取一部分人的真实社会属性。然后呢?扔到模型里面回归去...

我想说,若是前一种,何必绕着弯子从可观测的数据生生的去猜不可观测的数据,然后再用猜出来的数据去预测其他东西?直接用可观测的数据好了。本来就是社会属性->特定可观测行为->预测未来行为这样的路径(比如我知道啊买尿布啤酒组合的八成是新晋爸爸,但是我只要知道你买了尿布啤酒日后就也需要婴儿车日后消费潜力巨大就足够了嘛,我干嘛一定要去知道你是男性已婚已育?看看你买的尿布牌子我大概也知道你家的消费层次和接下来的品牌层次偏好了,何必去苦苦的猜你的收入?),有点像经济学里的“显示偏好原理”,或者有向的贝叶斯网络这样(给定上层节点信息,上上层节点信息无用),何必这么折腾...若是后一种,还需要去费时费力不讨好的调查?又不是以前数据尤其是观察维度稀缺的时代了。每次见到刚被象牙塔教育好的遵循123456黄金律步骤出来的建模者,我都忍不住先深深的吸一口气冷气然后苦口婆心的讲一下为什么这些东西其实不那么重要...

都是被现有的实证paper毒害的,动不动就是入户调查数据。哎,人家是做田野实验的需要手工搜集数据各种来之不易,和你们玩大数据的到处都是蛛丝马迹不一样啊!干嘛只会比着葫芦画瓢,明显使劲的方向不怎么对嘛。学界没数据啊所以没办法,业界一堆数据还愁数据搜集?随随便便做个随机试验前后数据爱取多少取多少...喵,尤其是做预测模型的,其实可以不用那么折腾呀。读paper易,却也是取其精华弃其糟粕,玩的灵活才开心嘛。

再啰嗦一句好了,学计算机和数据挖掘出身的只学怎么在现有数据基础上建模,不学基本的数据搜集实验设计这些统计理念,所以不会往这边想;学统计的又被一群没玩过大数据的长江前浪所禁锢,框架就在那里,你见或不见。估计等现在这一辈成熟了下一辈人就真的是站在巨人的肩膀上了。