Categories
我的生活状态

闷冬

往年的三藩,冬天一直是很晴的,也不会特别冷,让人一点都没有离开三藩的欲望。今年的冬天却格外温润多雨,而已经不习惯下雨的我,只能温温润润地闷在家里,看书写字。

这么多年过去了,落园大概也开始积灰。每年域名和空间续费的时候,倒是提醒自己还有个自己的空间可以吐吐槽。时隔多年,心态已经完全不一样了。有一说,随着年龄的变化,人们对于时间的感知会变慢。以前二十多岁时候发挥不尽的能量,到了今日,也就开始消极怠慢了。思考的速度在减慢,写作的热情在降低,唯一可能还坚持的就是对于信息孜孜不倦地摄取。

说起信息的吸纳方式,我这么多年倒是越来越倒退回书本文字了。以前小时候很喜欢坐在电视前,后面渐渐地不爱看电视了,到现在连看youtube的视频都没有什么兴趣了。感觉视频的内容对我的大脑来说并没有那么好吸收,而文字则是可以轻易地激活大脑里面的反应。只不过可惜的是,写的越来越少了。一方面是现在越来越佛系,很多事情不会咋咋唬唬,换做了波澜不惊。另一方面,文字表达能力在肉眼可见地下降。以前依靠文字那种抒情的畅快,已经越来越难以唤醒了。

有的时候不得不说,还是把自己养得太舒服了。温度越来越挑剔,食物越来越挑剔,连旅游都越来越挑剔。世界上还有多少种可能性呢?冒险的精神在缩退。说到底,湾区还是太舒服了。人生得意须尽欢呢。

Categories
读书有感

夜半耕读「The Ph.D Grind」

最近的落园文章多少有点反常,从category来看原来少有更新的「游来游去」、「读书有感」和「日常应用」开始频繁的更新,而且频率连我自己都多少被吓到了。转折期想法和接受的新知识都比较多吧,所以文字也开始泛滥。

今天本来打算早早入睡的,前几天连着忙碌,多少还是有点吃不消了。不过,一切的plan夭折在打开「The Ph.D Grind」这个PDF的那一刹那--完全没想到自己会一口气读完100多页的纯英文回忆录,而且是在今天白天已经阅读了大量的英文书籍之后。但是,没办法,这部回忆录的主题实在是我太过于关心的了,如何survive in a Ph.D life?

常来的朋友们大致都知道我离开象牙塔已经一年整了,而且在可见的一段时间之内都不会折回去。可是这份纪实还是深深的勾起了我心底的疑问与渴望。一直在问自己这么一个问题:how can you survive?没有一点点把握之前,申请Ph.D也白搭。至少五年的时间,人生最好的年华。这个赌注着实太大。

我非常感谢命运的眷顾,在我盲目的就是想拿到Ph.D offer的那年,2010年,把我狠狠的拒之门外,然后用一个类似的master项目把我收留。master的一年,是从research角度最最productive的一年。虽然没有一篇文章投出去,但是这一年思想的自由与research life的体验,让我切身体会了可能到来的Ph.D life是什么样子。而最大的收获,就是了解了更多的自己,知道为了达到自己的目标到底还要做多少准备。当年没有留在UPF让很多老师朋友都多多少少不理解,而现在回头看依然觉得自己当时的决定虽然仓促武断,还有若干突发因素干扰,但终究还是正确的。离开象牙塔的这一年,重新感受到生机勃勃的感觉。我又不得不再次感谢命运的眷顾,在某些时刻总可以帮我痛快的下一些本应纠结的决定。

这本书让我欲罢不能,只是因为作者叙事的腔调和平实的文风。深有同感,虽然所处的field还是有区别的。很欣赏最后总结的那句,「读Ph.D最大的收获不是研究上的突破,也不是学历上的荣耀,而是在人生的一段时间、用心地做一件事情,得到了坚韧而诚实的品质」。作文易,做人难。

夜已深,不知还有多少的问题足以让我辗转难眠。有的时候苦笑自己好好的学什么动态规划和那一堆线性非线性的最优化方法,总是在试图计算自己离最优路径是不是偏离了太远。一个ultimate goal在那里,就忍不住不断调整方向盘。其实有的时候是不是应该更加放手而随心,相信曲径通幽呢?

最近新的冲击太多,每天都在摄入大量的信息并试图形成自己的思考,多少有点脑力吃不消了。每天早晨定时起床、出门、穿越一个十字路口的时候,都觉得人生仿佛「Groundhog Day」那样不断重复播放,需要不断努力才能打破并突破。却也钦佩那些在魔都奋斗寻梦的打工仔打工妹们--我怕是受不了work for living这样的艰苦吧。有的时候,人的懦弱真的很顽强,远远比不上那些无路可退时刻的无可选择的坚持。

Categories
事儿关经济 经济、IT观察与思考

跨学科研究之殇

今天看到木遥的一篇文章:为什么跨学科的研究项目是件残酷的事,略有感触,在此罗嗦几句。

1. 经济学大量吸收了数学家,Arrow之后更是有一系列微观理论数理化的变革,Laffont的加入对于博弈论的影响扩大也不可或缺。这些人,在当年应该都算是“跨学科”的吧,经济和数学总是走的那么近,和统计学就更不用说了。
2. 很多学科领域都在期待数学工具的变革和进步,很多学科的突破式发展也是得益于数学工具的引入。物理和数学的渊源就不用说了,生物这些年来也多多少少依赖着好多数学工具的发展。另外从某种层次上,计算机和数学是不分家的……
3. 交叉学科研究最难的是,要求一个人具备两个、或者更多领域相对专业的知识。某一个领域少了一点,都不足以支撑一个突破性研究的进展。或者应该这么说,纯知识是好学的,关键是习惯两个以上领域的思维方式,知道他们分别关心的是什么,然后找到交叉点,这是我觉得对人要求最高的。隔行如隔山,很多时候确实如此。

最后补一句,最近常用一句话,

偏见源于无知

无知请理解为“某种知识的欠缺”。举个简单的例子,一个统计调查和研究估计往往首先要考虑的问题之一就是,样本是不是selected sample。简单的说,你不能跑到东北去进行人口身高采样然后回来告诉大家这就是中国人的平均身高(而某些国际研究,限于资金人力,往往在一个国家就取一个或者几个点)。selected sample,以及我们耳熟能闻的truncted data, censored data 等等,都是样本较之于总体的缺陷,自然会造成最后估计的偏颇。这也是很多时候,为了保持无偏(一致)性,我们需要根据样本的特征加上各种假设(比如Tobit模型)进行修正,然后才能得到基于假设下面的一致估计。

这是从统计或者计量的角度说这个估计的事儿,那么扩展一点,统计的本质无非是“归纳法”(此处特指相比于演绎法),那么自然是基于已有的信息集作出对已经发生的事件的判断。如果信息集不全,正如我对“无知”一词在上面的运用,那么得出的结论必然多多少少是有所偏颇的(无偏成为了小概率事件)。从这个角度来说,跨学科研究对于研究者多领域知识的高要求,在我的理解中,是这些研究突破困难但是珍贵的最主要原因(至于是不是偏颇,我们只能说这里无偏就更加的是一种信念了,没有什么可以衡量比对的依据了)。

终归,在一个充满噪音的信息集里面,找到有效信息,是一个脑力+体力活。Ph.D在我看来,值钱的地方正是这种孜孜以求的苦干精神,怕是真的与上上课就能学来的知识、和考考试就能获得的分数或者证书没什么关系。至于木遥所说的就业问题,呃,学界容不下还有业界……不要这么看不起业界……实践也能出真知啊。从学术研究突破所需的资源来看,业界能提供给研究的资源是完全不同的,所谓换个角度看世界嘛。

Categories
事儿关经济 互联网产业观察

从经济理论到商业模型

宏观经济理论比较难以直接转换为微观的商业模型,就不说了,毕竟关注的问题完全不是一个层面的。那么微观经济学呢?一个什么样的理论可以转换为一个可实践的商业模型呢? 除了金融之外?

这可能是经济学院和商学院最大的区别吧~就像物理和工程的差别。从我的感觉,最普遍的就是各种拍卖理论和模型,但是这个就有点鸡生蛋、蛋生鸡的味道了。比如Groupon,这种互联网时代的团购模式是不是我们以前所未曾闻及的?那么,在每一个传统的商业模式搬迁到互联网这个平台的时候,我们是不是可以利用信息的优势(用户注册资料、购买记录、地理位置等),来针对传统商业模式的弱项有所弥补呢?

电商在过去的2011年为广大群众贡献了无尽的福利,这个看看双11和双12抢购就不用多说什么了吧?各种烧钱烧的没完。从某种程度上,我甚至认为他们对平抑物价做出了杰出贡献……当然这个是暂时的,可是是什么样子的力量让各大电商这么火拼呢?我个人认为,还是信息优势和物流瓶颈突破,带来的电商较之于传统卖场库存、场地租金等等大幅下降的优势和对于顾客的准确感知。

作为一个有羊毛一定要蓐的半家庭主妇,我就很直接的在淘宝商超买掉了柴米油盐酱醋茶……除了肉和蔬菜牛奶等这种暂时没法买的之外。一袋大米,比1号店还便宜,联想起1号店每笔单子都亏,我就更开心的蓐淘宝的羊毛了。真慷慨啊,还暂时只有上海可以享受此等福利,真是送到门口的肥肉啊。其实,好吧,我只是觉得一个人去超市扛一袋5kg的大米太沉了,还是送货上门的好啊。

随着信息流通的加快,不可避免的,各种传统的商业模式都要面临着变革。这个过程中,经济理论可以发挥多少作用呢?我们对于information和noise的分析、我们对于博弈的分析、对于交易成本的分析,一个个是不是都可以重新在信息充分流动的情况下考察是不是可能突破传统的束缚、有一种新的均衡结果的存在。为了达到一个新的均衡,我们又应该如何设计一个对应商业模式,来充分挖掘信息的力量,创造信息租和利用信息差,赚取信息的价值?

最近在一直想这个问题,或许过去对于商业模式的关注太专一的从经济的角度出发了。这里面其实不论是academic research还是business trials应该都是可以有所尝试的。如果说团购燃烧起了传统商业模式在信息时代的第一场变革,那么后续的,应该还有更多的爆发空间——在泡沫破灭之前,需要创造更多的实质性的支撑。

最浅的,从最直接的信息流通的层面、营销,也会经历一场变革吧。只是没有它背后实质性的商业模式的变革那么深刻的有趣。

Categories
事儿关经济 经济、IT观察与思考

社会实验的特殊性(三)

在上一篇[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7%ef%bc%88%e4%ba%8c%ef%bc%89]里面回顾了费歇尔的实验设计三原则之后,那么归根结底,我们为什么要做实验?

从一个纯经济学的角度来看,社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候(说到底还是各种内生性问题),采取的一种主动出击寻求答案的方式。故而,实验之前我们一般是有一个基本的思路和方向的,然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言,社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。

说一下从我个人的感觉上的最大的在业界和在学术界的不同,可能就是data上。在学术界,难得会有非常好的data,所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的,比如我们研究几十年前的事情,自然当时没有电脑等东西可以完善的记录所有的事情;有些是数据本身的性质决定的,比如宏观里面常用的gdp等东西,中国的数据是1978年之后才有的,而且一般都是年度数据,更受限于国民统计汇总的层级汇报,自然会有一些测量偏差;有些是业界有数据,但是没法得到,这里就牵扯到一些隐私等法律权益、或者数据接口API等开放的幅度的问题;还有些是知道数据在哪里、也可以得到,但是成本太高,比如个人层面的数据,除了全民普查外很难有全覆盖的数据,一般只是小规模样本;最后的就是信息并不是直接以数字的方式记录的,比如twitter上面的用户微博记录,因此需要借助文本挖掘等手段进一步深究。

业界主要提供的就是第三类,大量的个人用户的数据,比如淘宝上各种买卖双方交易的数据。现在淘宝的交易量真的是非常大,而且每笔交易都是真实的现金往来的(我们不考虑非法的洗钱状况),其实背后对应的就是一个真实的微观交易的集合。但是这个交易数据怎么用?最简单的,我们可以看价格,对于同质品之间竞争已然白热化的,已然相差无几,那么价格几乎就等同于scanner price,可以用来衡量物价的波动。当然,网络交易有不同于实体交易的地方,比如受限于运输成本和采购的规模效应,肯定会和超市里的价格有所区别。另一方面,网络上的价格信息流动非常充分,越来越接近于理想中的完全竞争市场对于信息的要求,所以多少也让人兴奋。

另外一个有趣的数据可能就是微博,因为其实质上是一种“短平快”的信息传播渠道,会把信息通过简单的几个信息源极快的扩散到整个网络中去(所谓的influencer model)。所以现在很多人炒得很热的微博营销也是背后有着深刻的渊源的。但是同样的,信息传输成本降低的背后就是噪音的增加,因此对于微博的信息分析起来除了文本挖掘技术实现之外,就是怎么去在大量的噪音数据中寻找到有用的信息。从这个角度而言,就是在进行任何文本挖掘或者信息提取之前,是不是有一个主导的思路去明确的知道需要挖掘的信息。业界很多时候不是数据太少了,而是太多了,以至于大家根本不知道这些数据可以怎么用,所以data mining成为了救命稻草,一窝蜂的上去看看能不能挖到金矿。从我的角度看,每一个data mining算法背后必然是有一种主导的思想来支撑的,比如决策树,不过是分类统计最优化路径的感觉,这样的直觉还是蛮强的。所有数据分析的任务无外乎两个字:降维,怎么在一个多维的好烦的数据海中找到自己最感兴趣的数据,可能是几个变量之间的关系,可能是一个综合指标的创建。最简单的,GDP就是对于国民生产消费活动的降维衡量指标,所以他既然降维了自然有损失,能够多么真切的反应经济活动的现实就必然要打个折扣。

经济学里面常用的“降维”的方法就是回归,无论回归在统计学或者其他学科里面被批判的多么体无完肤,但是回归最大的好处在我看来就是最容易融入经济学直觉。在[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]里面我曾经提到一些最新的高维数据降维的算法,然而算法本身必然是有直觉甚至是(经济)理论来支撑的。当数据挖掘方法被应用在一个经济活动或者经济问题的时候,如果完全脱离了经济直觉和经济思维衍生的分析方法,我觉得未免有点太过于高傲了。有的时候,如果分析思路足够敏锐,那么基于这样思路的各种算法的出来的结果可能是殊途同归。正所谓“万变不离其宗”,这也是我觉得很多data mining的方法应该和经济学、商科的思维更好的融合在一起的缘故。就像挖矿,我们除了要有先进的挖掘机以外,事前的各种勘探和经验思路还是有非常大的价值的,至少可以降低找到金矿位置的成本、尤其是时间成本。这也是我觉得经济学在业界的应用天地断然不仅仅限于和金融相关的那些而已的缘故。

另外,如果“降维”说的广义一点,就是科学的目标。可能不同的人对科学有不同的定义,我除了喜欢一种“概率”角度的定义之外,刚看到一种定义也是蛮受启发的,

The object of science is the discovery of relations.., of which the complex may be deduced from the simple. John Pringle Nichol, 1840

然而,说到底,经济直觉总要来源于实践经验,只要经济学还是定位于“研究人类行为活动的科学”。实践中信息不足的时候,信息是制约的瓶颈,因此我们要借助更多的数学建模工具来力求完美精细的刻画现有的数据构成的轮廓。反之,如果数据是可选择的,那么更多的精力就应该放在如何去“选择”数据上。我认为,实验最大的好处就是数据完全是由实验设计阶段决定的,实验设计的好数据自然会更好的告诉我们所关心的答案。

忘了是哪位大牛在Handbook of Econometrics里面写的了,大意是“与其寻求更好的估计方法,不如寻找更高质量的数据”,言下之意就是在数据可以被“设计”而获得的情况下,我们可以把精力更多的放在实验设计而不是估计模型的选择上。我并不是一个纯粹的reduced form鼓吹者,相反,我是更欣赏structural model后面的经济学思维的。因此,在实验的方法被付诸实践之前,我更希望更多的按照一种经济学model的模式去考量这些问题,去更精巧的让实验告诉我们想知道的答案。除了社会实验的特殊性考量之外,必然的,我们没有任何理由抛弃现有的经济理论、尤其是微观经济理论去完全随意的“检查”几个变量之间的实验上的因果关系。且不论efficiency,社会实验的对象为参与经济活动的人、这一特质决定了我们在设计实验的时候便要充分利用现有对于人类行为的认识成果,更好的一步步设计实验的流程——可能不只是一次实验的流程,更多的是一环扣一环的一个个实验如何按部就班进行下去。一个动态的实验设计会更好的考量实验设计者对于经济学的理解,也是社会实验较之于费歇尔三原则下的自然科学实验、要求更高的方面之一。