Categories
我的生活状态

天赋,努力和运气

这个问题从小就被讨论,“天才就是1%的灵感加上99%的汗水”,洗脑洗得深入人心。

人生有些经历之后再去看这三者的关系,多少有些不同的感触。比如天赋,真的是事半功倍没法比。很多时候我的感触是,智商大概就是一种大脑控制的高层次的能力,可以随时转移到其他层次(比如小脑控制的运动能力),但这种转移不是没有成本的。当看到别人轻轻松松、不需要大脑的转移支付,就可以胜任某项任务的时候,只能感慨这就是天才(天生的天赋或者通过长期训练得到的)。不过可惜的是,虽然大脑的计算能力可以用来弥补其他的不足,但是其他层次的能力是没法反向转移到大脑的。这是一个单向的机制。

意识到天赋的强大之后,我学会的最乖的就是不要跟自己过不去。挖掘自己的天赋(就是那种说不出来为什么但是就是能做好的事情),通过反复训练弥补致命的短板,但不要去强求短板可以变成优势,否则太累了。对我而言,语言能力是一个天生的短板。我的耳朵对语音不敏感,我的舌头对发音控制一般,我的大脑对单词记忆不佳,所以我的语言学习一直是很慢的。但还好,语言可以作为一个辅助,我只需要在被制约的时候加强就好了。譬如英语,这么多年来磕磕绊绊,最后也混到了算是流利(听说读写包括单词量)的水平。我从来不会奢望自己能跟母语者比肩,毕竟这不是我的天赋所在。但是那些我真正擅长的天赋,嘿嘿,那就不客气了。领悟力强自然要善加利用。

从伦理哲学的角度,公正是不应该建立在人自己不可控制的因素之上的。比如出生家庭贫富不能自我选择,所以社会应该有意识地弥补个中不公。那同样的,天生的天赋也是不能自己选择的,那么这也属于社会的责任范围吗?从一个社会的角度,人尽其才自然是最优解,但是又如何面对“供给(即现有天赋分配)”和“需求(即社会急需技能)”之间的不平衡呢?换句话说,我们总不能因为社会上大多数人都擅长舞文弄墨,而决定没有人去做饭,对吧?那这个社会直接就饿死了。伦理哲学一直强调的是,公正要去形成对于“努力”的正向激励。有意思的就在这里了,努力和天赋之间的关系又是如何呢?

网络流传,“以大多数人的努力程度之低,根本轮不到拼天赋”,多少给了很多人当头棒喝。从我的经历和观察来说,努力自然是不可缺失的,但也不是注定有收获的。努力在自己的天赋点上,自然会功成名就。努力若是用错了方向,那就是失意时刻的自我安慰了。选择实在是太重要了,比努力本身重要的多。从个人的角度,谋定而后动方为上策。那么从社会的角度,又该如何呢?

运气。天赋和运气多少有些类似之处,都是人本身不可控制的,然而运气则更多像是一个短期的冲击。运气公不公平,这个我们挺难比较的,毕竟我们不知道运气本身来源的机制是什么。然而能不能够把握住运气,这是可以事后观察到的。很多成功往往就是一念之间,过了那个天时地利人和的时刻,再难复制了。我所观察的人群越多,对这点的感触往往也越深。把握住一个机会,往往后面就会顺利很多。你说这很公平吗,也不见得,毕竟也有人一时运气却导致后面满盘皆输(最典型的例子就是中彩票巨奖,简直是厄运的诅咒了)。当然还有不可复制的时运,比如影响一代人的恢复高考,比如我这一代人的留学开放大环境,对很多人都有影响,只是程度不同罢了。

最近在想这些,多少也是试图理解那些以前自己无法理解的事情,提醒自己不能井底观天。我曾在落园首页挂了许久的标语,“兼济以达,独善则穷”,现在看来并没有过时。独善,或者说自我优化,是一个相对容易的任务。兼济,或者说剥离自我利益的层面去思考社会问题,则颇具挑战,却也有意思的多。

Categories
事儿关经济 互联网产业观察

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference?

当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。

这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。

对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个辩护就是,关注的问题太不同了!data mining很多时候关注的是针对每个个体选择适当的信息传递,而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上,针对这一点我现在越来越认同某个计量学家对于consistency的评价了:

(大意)我喜欢计量经济学,正是因为他对于政策制定的强力支撑。

况且,还有quantile regression可以做一个完整的系数分布估计呢!加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨

要会技术(统计、机器学习、可视化、最优化),要懂市场(营销,产品,客户行为,渠道),要懂沟通(同事协同,上级汇报,对外呈现),工具要熟练(SQL、Excel、SAS、ppt),公司战略还要懂点,没准还要带团队,要懂管理……。OMG,我在说什么,不是MBA,是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛(题外话,我等consultant活得也格外艰辛啊,这些加上无穷无尽的出差 -_-|| ),而我后面跟的一句是“市场发展不成熟,分工不明确,相关领域人才太少的恶果”。没办法,只做模型和分析远远不够啊,太少人可以看懂并完美应用了,所以搞分析的不得不自己卷起袖子上阵,即当爹又当妈……

那么说到底,为什么现在big data这么火?为什么 quantitative analysts 对数据源这么 obsessing 呢?我的理解是,

1. 大数据可以很容易的aggregate到适当的level,从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通(既实话又废话)。
2. 大数据使得很多大样本的性质可以直接应用,需要依赖的模型假设大大放松,从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining(又废话了),从而不仅仅服务于单一的policy making,还可以实现定点、极端个性化的信息投递。说白了,就是既可以分析群体特性,又可以兼顾个人特质,像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据,格式整齐(要不搜集成本过高也没法搜集)、数据真实、定义明确,很容易进行data cleaning(一个反例:跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱,统计口径什么的千差万别,数据来源也未必可信)。这样的数据只要简单的编程处理就可以了,把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息,比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用(idea -> result -> implementation)。关于这一点,Frank曾经发给我一个很好的summary,说的是大数据为发展(经济学)带来的新机遇:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的,social network的数据往往都是大数据(得有links嘛),所以既然我的研究兴趣在那里,自然会更多的关注大数据。

那么,大数据的对于分析人员挑战在哪里呢?
1. 从噪音中找到有用的信息: 正如前面所说,大数据包含了太多个体的信息,所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息,对于统计分析专家的思路清晰要求度非常之高(Frank兄曾经对此做过一些简单的批判,业界的一些报告有时候无奈的直接把数据aggregate了,丢失了部分有用信息)。而我总觉得,对数据背景一定要有所了解才可以,不能是简单的大海捞针,还是要有直觉指引方向的。(只针对业界数据,制药行业之类的实验数据我没接触过,没有感觉~)
2. 大数据对于建模者的学术训练背景要求更高: econometrics, data mining等等统计分析方法,及其结合,往往意味着分析者需要有着良好的数据直觉。而这一切,往往离不开一个solid的学术训练背景。最简单的,如果不会C或者python之类的编程,不会R之类的统计软件,那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集,我知道很多人就是excel手动做数据清理,然后扔到stata之类的软件中调用相关的命令(或者可以称之为函数)就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私: 大数据往往来源于个体,这也就意味着data access往往被控制的很严,不可能向所有研究者开放。那么,研究者往往只能接触一个领域、一个公司的数据,而无法是非常全面的行业数据(比如,通信数据你要么有移动的,要么有联通的,不太可能移动联通的同时都给你)。这也多少造成了分析只能从一边入手(依赖双方数据的,比如game theory的实证分析,可能会有些困难)。

暂时先想到这些,或许日后还会补充吧,欢迎各种批判(我只是小小的井底观天而已,加上各种眼高手低、站着说话不腰疼)。其实有的时候,想想自己明明是 more into theories than empiric,但是也就被各种“拉上贼船”下不来了。至少我还是坚信,更难积累的是analytical sense而不是skills,后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说,很多时候还轮不到拼天赋……

(p.s. 发现新版WP的全屏编辑模式很好用啊,很简洁明了令人可以专注写作!)