Categories
经济、IT观察与思考

一些观察

随便写写,随便看看。

1. 关于研究方向。

读的paper多了,发现大多数人的研究路数无非两种:

  • 一种是锚定一个问题,然后用尽各种办法来看哪种可解。换个通俗的就是,车坏了,找出一堆工具来看看怎么可以修好。
  • 另一种则是,沿袭一套方法论的路数,试图解决越来越多的问题。通俗的讲,就是木工不满足于打打家具,还要去试试电工水工装修工。

你说孰优孰劣?没有高下之分。谁也说不好一篇好的研究到底是问题导向的还是方法论导向的。不过鉴于一般来讲方法论比较容易训练出来,所以有的时候看似包装的很漂亮的paper可能正是这个方法灵了然后倒回头来包装问题本身。

本以为这个只是看paper时候的感觉。后面发现,工作其实也不外乎如此。有的人凭着一门专业技能,比如编程,就可以在不同部门之间切换来切换去,反正总有需要用到编程的地方。有的人有一些具体问题,然后就广撒网找来各种背景的人帮忙解决。前者最后进化为技术专家,后者进化为大BOSS。

2. 关于建模

说到模型,反正上来都是那句至理名言:

没有模型是正确的,只有一些是有用的。

所以一切试图证明自己是真理的模型都是无用功。如果是真理,搞成体系那就叫他理论,可以慢慢证明就叫做定理,不证自明那就叫公理好了。反正我觉得说某个模型是正确的这种言论都是挺无聊的。

基于这一条,在实际商业环境中建模,就不要一开始给自己摆太高的期望。就跟上面说的,很多时候问题都是第一类人发现的,他们只是寻求有着不同技能的第二类人帮忙看一下,实践中谁好用就用谁。所以一群第二类人内部争来争去,什么机器学习流派啊、数理统计流派啊、计量帮啊、物理统计帮啊还是算命仙人这些其实都不那么重要...比如最近世界杯大家都在预测,那么不管你是章鱼还是小丸子还是霍金,只有预测对了大家才信你。

所以在学校里被某个流派洗脑洗的深入骨髓的,可以醒醒了。不要一上来就摆出自己是真理这样的架势。每个人在象牙塔里都是这么教的。

3. 关于统计建模

如果大家笃定就要用统计的方法了,那么要解决的问题就无非是:搜集数据(变量)、选择模型、修改参数以达到最优。

具体到项目,搜集数据这个肯定是大头。每个学过统计的都被教导过“garbage in, garbage out”。只可惜大部分老师讲完这句话之后,学生并没有多少机会实际的去搜集数据,或者更直接的去想要怎么搜集数据。大部分学校里面的训练(尤以网上数据挖掘竞赛之时)都是,数据集给定,怎么找个更好的模型来预测/评估/解释。真到了项目上需要搜集数据了,大部分人的做法无非就是先找张纸把想到的变量都分门别类列出来,然后把所有可能拿到的数据都扔进去试试,从简单的线性回归或者分类器开始,到非线性的各种模型都扔进去跑一遍,反正这年头计算能力不是瓶颈,总有合适的模型自己可以去做变量选择。

听到这里,貌似也挺好啊。是啊确实没什么不好,如果大家都有充足的时间慢慢玩的话。可惜的就是这种无脑流在大多数情况下都是受制约于时间的。于是为了省时间,要么就某些麻烦的数据不搜集了,要么就某些计算复杂的模型不去跑了。差不多就好了。解决问题了么?可能也差不多解决了70%-80%。

与此同时还有一类业务流派。这类人特别像医生似的,是某个具体领域的专家,专到什么程度呢?基本上他熟悉的地儿有个风吹草动都逃不过他的眼睛。直觉很准,或者说经验实在是太丰富了。跟这个流派的人一起工作很好玩,他们想到一个问题大概的给你指一个方向,大部分情况下八九不离十,差不多就可以把问题解决了。就算事后需要稍微建建数理模型多做一些分析和验证,基本也不会太麻烦。每当此时,不禁大呼一声畅快,瞬间觉得自己以前的思路真实的麻烦爆了。嗯,爽归爽,不过这种流派需要在一个领域浸淫比较长的时间,逃出他的领域就比较难说了。

4. 关于这些碎碎念

基本上就是想说,容易训练出来的都是不重要的...那些东西都进化很快,学术界不是白白养了一群人浪费的(虽然也挺浪费的),所以长江后浪一定会把前浪拍死在沙滩上。

与此同时,业务知识也不是那么重要的。经济环境变化太快,谁也不知道明天这个世界会变成什么样子。

那既然都是以不变应万变,那还是选一条比较开心的路子。总是需要合作的,这个世界已经复杂到没有可以一个人解决的问题了。

Categories
读书有感

最近读paper的一些领悟

读paper易,做model不易,且读且珍惜。下面仅为个人半夜胡言乱语,轻拍~

最近扫paper的数量没什么下降,但是深入读全文的paper越来越少。一个原因大概是很多working paper 研究的问题我不怎么关心?毕竟不是读书的时候需要读很多paper来应对coursework presentation和literature review...

说说一些感受这样。看paper首先是看标题,有没有特定的关键字;有的话再去看下一步摘要,有没有有意思的地方,无论是建模方面还是结论。摘要有意思的话就标记出来,待扫完目录后去打印个别全文细细咀嚼。感觉现在扫working paper的功力越来越纯熟了,一个小时完成上述工序扫个十篇左右这样。

但是比较哀伤的是我发现大部分选出来的paper还都能读懂,尤其是实证的paper,清一水的不是DID就是RE或者RDD,最多来个IV。读起来更有意思的地方怕是背景描述这块,有很多历史人文地域常识可以了解。我想说那个ATE不是不重要啦,但这货真的不稳定(随时间迁移),做一个时间节点上的估计有多大的概率会历史重演呢?而且很多时候是需要多个因素共同作用的,就跟个化学实验似的,控制的除了原材料还有温度湿度气压等等,实验室里面这些客观条件可控,但经济发展中不可控的甚至不可观测的客观因素实在是太多了。计量更多的框架还停留于单因素分析上(当然单因素已然分析不易),是不是有点落后于时代的诉求呢?唉可能还是要期待数学工具、统计理念对于关系数据处理的更深理解吧。现在的network model还是孱弱了一点。

默默的再补充一个实践中在大数据(big volumn big dimensions)客户数据建模中的体会。很多的时候我们会倾向于找客户的原始特征,所谓的demographical variables,性别啊年龄啊收入啊。但是除了facebook这样真人社交网站,谁会告诉网站自己是男是女年方几何呢?然后为了找这些”珍贵的”数据,要不就是通过现有的数据来猜,比如买女士用品的八成是女性;要么就是通过调查来获取一部分人的真实社会属性。然后呢?扔到模型里面回归去...

我想说,若是前一种,何必绕着弯子从可观测的数据生生的去猜不可观测的数据,然后再用猜出来的数据去预测其他东西?直接用可观测的数据好了。本来就是社会属性->特定可观测行为->预测未来行为这样的路径(比如我知道啊买尿布啤酒组合的八成是新晋爸爸,但是我只要知道你买了尿布啤酒日后就也需要婴儿车日后消费潜力巨大就足够了嘛,我干嘛一定要去知道你是男性已婚已育?看看你买的尿布牌子我大概也知道你家的消费层次和接下来的品牌层次偏好了,何必去苦苦的猜你的收入?),有点像经济学里的“显示偏好原理”,或者有向的贝叶斯网络这样(给定上层节点信息,上上层节点信息无用),何必这么折腾...若是后一种,还需要去费时费力不讨好的调查?又不是以前数据尤其是观察维度稀缺的时代了。每次见到刚被象牙塔教育好的遵循123456黄金律步骤出来的建模者,我都忍不住先深深的吸一口气冷气然后苦口婆心的讲一下为什么这些东西其实不那么重要...

都是被现有的实证paper毒害的,动不动就是入户调查数据。哎,人家是做田野实验的需要手工搜集数据各种来之不易,和你们玩大数据的到处都是蛛丝马迹不一样啊!干嘛只会比着葫芦画瓢,明显使劲的方向不怎么对嘛。学界没数据啊所以没办法,业界一堆数据还愁数据搜集?随随便便做个随机试验前后数据爱取多少取多少...喵,尤其是做预测模型的,其实可以不用那么折腾呀。读paper易,却也是取其精华弃其糟粕,玩的灵活才开心嘛。

再啰嗦一句好了,学计算机和数据挖掘出身的只学怎么在现有数据基础上建模,不学基本的数据搜集实验设计这些统计理念,所以不会往这边想;学统计的又被一群没玩过大数据的长江前浪所禁锢,框架就在那里,你见或不见。估计等现在这一辈成熟了下一辈人就真的是站在巨人的肩膀上了。

Categories
Uncategorized 事儿关经济

R会议小记

今年的R会又热热闹闹的开了两天,一切进行的还算顺利,没有大的波折。大家玩的很开心,各种旧友重逢相见恨晚按下不表。只说几点我的体会:

1. 数据挖掘越来越热,却越来越觉得泡沫。今年R会议创纪录的收到了接近500人报名,实际到场领取材料350人。会场一直有人需要站着听,这是以前没有的。R这两年越来越热,说明业界的需求上来了,用R的人越来越多毕业了,进入企业了。然而听了很多演讲,却没有感觉有让人“惊喜”。大家在重复的炒有限的东西。不见新意。

2. 工具越来越热,只能说明用的人越来越多,而不见得是用法越来越聪明。大数据热的一塌糊涂,大家关注的却只是怎么能实现计算,而少有从根本思想的角度提出创造性的方法的。这让人不免觉得疲惫。

3. 林大师兄说的有句话让我印象深刻——用复杂的方法解决复杂的问题那是做研究,用简单的方法解决复杂的问题是在业界。一路看来,被业界认可的方法,大都是simple and elegant的,只可惜翻来覆去就那些,看久了就审美疲劳了。

4. 大多数分析只能说是typical的完成任务,有灵性的分析不多。张翔的“短文本分类实践”在这个意义下,是可圈可点的有灵性的分析之一。在现有的算法上,如何聪明的排列组合优化改造,这不仅仅考验的是分析者对于模型的理解,更多是对于业务需求的洞见。再好的模型,也得多少按需定制一下,否则总让人觉得空洞无物。

5. 机器学习是小聪明而不是大智慧。我这么说坐等被骂,不过确实是思喆大哥的一句点评醍醐灌顶——机器学习的人从来不关心假设检验,尤其是对于分布的假设。反正计算机可以算,那么就去算好了。很多算法直觉上过得去,就可以了。我总感觉这东西,要么大家玩够了破灭一下,要么有人从头建造一些夯实的基础,真正繁荣。现在还是一个初生牛犊的混沌阶段吧。比较好的应用,除了google发起的那几类,大概也很难有本质上的突破了。

6. 业界是 short sighted,这个不用多说了。

7. 我对整个数据分析的行业未来持负面预测。有泡沫的感觉。可是,明明自己还在混这口饭吃...不过至少这口饭还能吃个十年二十年吧,不怕不怕。

8. 以前总觉得建模什么的最重要,最刺激,最有成就感。现在感觉,其实很多时候解决问题的能力大家都有,而发现问题却不是每个人都擅长。也劝最近打算从学校里面出来的朋友们,不要一上来就跟招人的企业说“我希望做统计建模”blablabla...其实有的时候那些fancy的模型提高的可能只是最后的5%,而为此牺牲的效率有可能有着更高的成本。至少我现在,有点越来越问题导向了。还有,其实很多时候,在学校里大家对于模型的理解还都是很肤浅的,纸上谈兵的。其实自己根本把握不住那些东西。最近好多次深深感觉,我以前觉得自己熟练把握的很多模型都不见得可以迅速的应用到实际的业务场景中去。在不断的跟同事、老板、partner讨论的过程中,才是真正的去深入的理解那些模型的过程。所以,一句聊以自勉的话:还是从简单的做起吧。

几乎没说几句好话,见谅。好玩的东西就是那么多,天天玩天天看不免觉得疲惫。不过平心而论(与我的工作单位无关),eBay对于数据的理解和应用整体水平绝对是行业前列的。能把一个数据分析的大问题break down到若干几乎独立的小问题,这就说明整体的框架已经成熟并足以支撑业务了。这样的情况下,作为个人可能接触的好玩的事情会越来越少,因为几乎相似背景的人都可以很快的胜任日常的工作(这也是我对大企业最佩服的一方面,分工确实细致,有利于提高整体效率),另一方面也是学习如何化整为零的好去处。每个人都有自己想要的人生,都会选择适合自己的地方。只是这一次很多人一致评价,觉得我来了eBay之后更快乐了——这怕是最好的褒奖了吧。

----对于未来R会议的期许-----

我们号称要做“学术会议里面最文艺的,文艺里面最学术的”,那么总要多多的有些有灵性的分析。R语言基础培训可以淡出R会议的舞台了。

此外,力争联系更多的大牛~要有学术会议范儿嘛 ^_^

Categories
事儿关经济

教育与科研精神

很少起这么大的一个题目,只是今天看到了一些“旧闻”,颇有种“有感而发”的情绪,所以就忍不住写下了这个题目。

文中提及的是OECD的PISA测试,我们先不管对于这个测试本身的争议,它大致反映了各国中学教育的水平。上海于2010年首次加入这个测试(共34个国家地区),结果自然“出人意料又在意料之中”:

China’s 15-year olds also took the test. They ranked 1st, 1st, and 1st.

猛地一看我还以为是发泄情绪呢,后来发现分别是三样测试的成绩。搜了一下关于pisa的新闻,关于这个结果的评论大多集中于这个测试到底可不可信。很多人觉得上海是一个特殊的样本,毕竟是中国经济最发达的地区。可是我却觉得不尽然——如果我们单单看成绩,尤其是高考成绩的话,上海大致是落后于全国平均水平的吧?我一直觉得上海好在素质教育,很多人多才多艺。所以很多人对于中国“应试教育”的批评,或许对上海不怎么适用。

中国重视教育,这个貌似是和东方文化一脉相承的,文中还有提及类似的香港、新加坡和日本的表现也都不俗。还有大家比较熟悉的就是中国的领导层几乎都是工程师或科学家出身,这怕是不太常见的——听说美国的政治家大都是律师出身。我无意争论这两者的好坏利弊,或许谁也无法短期内看得太清楚。只是这样的差异,倒也颇有意思。想想自己,弄得我这个学“人文学科”出身的倒是不知道自己应该如何立足了。

今天晚上和两位学长一起吃了一顿饭,顺便聊了很久很久。期间我提到一个模型,然后他们就开始帮我分析模型的事儿。分析了半天,就说到建模的精神的问题。我一直特别感激这学期碰到了Motta这么好的一位老师,非常强调直觉,而且他的直觉真的不是一般的好。有人说,建模建复杂了不是本事,建的简单才叫做本事。Motta就是有能力把复杂的模型简单化,取其精髓,把故事的来龙去脉讲清楚,让人一眼看透逻辑。这样的能力真的是让人惊叹——无论是面对同行学者、学生还是政府官员或产业界人士,他都能娓娓道来,大家都听得明白。这样的能力,着实难得!

我一直在想建模的事儿,一方面是写论文不得不做,另一方面也是对于自己经济学直觉的一次审视。这一年来,多多少少感觉自己的经济学直觉貌似有点降低了,不知道为什么。或许是这边太过于强调技术上的训练,多多少少总是在压迫自己做习题,所以很多时候就不知不觉的放松了对思维能力的训练。这次写论文,直觉不足的问题第一次耀眼的暴露在自己眼前。我一直是想让自己做到“无论是用数学还是文字,都是能把事情讲清楚的”,但是现在看来我的直觉还不足以支持我到这么高的一个境界。当然,我根本无法和Motta相比,毕竟他在竞争政策和反垄断领域浸淫了数十载,这些东西都看的通通透透了。我只是想follow自己的想法,然后表述一个自己脑海里面喜欢的故事。

突然间越来越体会到为什么说“社会科学家应该是越老越值钱”了,却记不得是何年何月听何人如此训教过了。对于一个社会,作为年轻人真的很难说理解它为什么这么运转,只有长期的浸没在里面,才能看得通透并知道如何融会贯通。去年的时候觉得,我还有许多东西要学,所以不能离开学校;现在看来,我还是有许多东西要学,只是学校里面未必能学到了。记得去年做决定离开学校的时候多多少少有些伤悲,毕竟喜欢了经济学这么久;现在却觉得这并不是完全的离开经济学,而是从另一个层次去体会经济学。这一年,给了我很好的一个机会肯定自己学习技术层面东西的能力,实分析和高宏彻底见证了技术层面的积淀;这一年,也深深让我体会到社会经验的不足,学校这个象牙塔可能不再适合我了。没有一项好的应用经济学研究是可以脱离真实生活直觉的。我一直有点固执的认为,就算是做理论经济学的研究,也是需要从应用经济学中获得的直觉来支撑的。连应用都做不好,又怎么可能完全架起来“空中楼阁”呢?

Categories
事儿关经济

从理解世界到政策分析——经济学角色在变化?

一直觉得,经济学最引人入胜的时期就是“初逢”。几条简单的曲线勾勒出世界的美好,然后简单的分析让人眼前一亮,世界豁然开朗。倡导这样观念的大概 不得不算上张五常老先生,看看他写的散文集或者《卖桔者言》,就知道这个世界是怎么可以被经济学简单的分析的——某种程度上,经济学显得过于强大了。

今天去听了UPF的一个recruitment讲座,是MIT的Dina Pomeranz,讲的是No Taxation without Information。 大概就是说怎么设计一种实验来使得上下游厂商之间难以相互勾结、逃增值税。去听这个讲座一方面是那天和director谈话的时候他提及了这个讲座,另一 方面确实是对social network感兴趣,而这个上下游厂商之间自然而然的形成了一个network。不过,这里想说的是,今天去听的时候那个震撼啊~毫无悬念的,我又成了 唯一一个厚着脸皮去蹭讲座的master,剩下还有两个Ph.D,然后一屋子满满当当的全是亲爱的professors们。看到Gali, Ciccone, 还有一堆给我们上过课的老师……在整个讲座的过程中,氛围也是比较积极的,一场没有硝烟的战争……

当时我就在想一个问题,经济学发展到现在,还仅仅是给我们提供观察世界的一个角度而已么?可能受周围一个原来做public health (health economics)的同学潜移默化的影响,我现在越来越关注经济学之于政策分析。原来确实是对计量有种种偏见的,但是当看到计量在政策分析量化之时的巨 大作用,确实也不得不感慨一番了。在development 和labor这两门课之中,整天就在讨论各个项目的效果评估之类的,确实也蛮有趣的。某种程度上,现在的经济学已经不仅仅是一种分析世界运行方式的工具 了,它跟政策制定的联系或许会越来越紧密。

我是感觉这一年其实受的影响还是蛮大的,回头看原来的对于经济学的看法确实是有些天真了。原来很喜欢理论分析,喜欢建立模型时候的优雅,而现在更关 注经济学在应用之时到底能够发挥多大的威力。有点可爱的是,原来多多少少是有些抵触计量的,现在整天在做的却是跟计量离不开。虽然还在警惕着自己那个“黑屋黑猫”的故事,但是秉承着一种“想找什么的缺点首先要真正的理解它”的思想,还是在不断的深入接触着计量。渐渐开始理解做应用计量的有的时候并不是关注方法本身或者预测的准确度,而更多的是提供一点政策制定时候的方向指导和佐证。对计量这种观点的转变,或许是我以前万万没有预料到的。

今天又连续听了8个小时课,而且是思维在跟着老师走而不是被动灌输似的听,所以实在是累得很,也终于支持不住又一次在高宏课上不幸睡着 了……Gino童鞋讲话永远是一个调实在是容易让人不幸睡着,更何况现在在折腾动态规划汉密尔顿函数之类的无聊东西。我不知道这样旁听+选的课每周那么多 课时的日子还能坚持多久,但是真的是觉得很喜欢这些课,所以暂时还是挺着吧……

哦,最后补充一点好玩的,是上博弈论的时候想到的。最近在讲“correlated equilibrium”这个东西,概念上还是蛮好玩的,大概意思就是引入一个具有第三方公信力的个体,然后传递信号来影响策略选择的过程——这样 player做决策的时候就不是相互独立的了,而是相关的了,因此算各种(混合策略)情况概率的时候就不是简单的相乘了。他用了一个chicken的例 子,就是典型的2×2博弈,也没啥特别好说的。我只是一刹那间突然想起来三国中的一个典故,那就是吕布的“辕门射戟”。这个故事大家应该都耳熟能详了,大 意是:

吕布说:“把画戟插到辕门外一百五十步地方,如果我一箭射中画戟的枝尖,你们两家就不要打了。如果我射不中,打不打我就不 管了。”纪灵希望射不中,刘备希望能射中。……只听"嗖"的一声,吕布大喊:"着!"那箭不偏不倚,正中画戟的枝尖。就这样,吕布以他精湛的箭法平息了一 场厮杀。

这里我们可以把吕布理解为那个发送信号的人,他已然决定了刘备和纪灵两家需要选择的策略(当然这里因为吕布太强大了,刘备和纪灵除了遵守吕布设定的 规则之外别无选择),然后用一个信号直接决定了最终的outcome。当然,我们很难说这是个均衡,但是我想只要吕布在那里,这永远会是一个均衡吧……不 过这些都是后话了。