Categories
经济、IT观察与思考

一些审视

大概有一个多月,一直在酝酿这么一篇文章。有很多的东西想说,却每每到口边欲言又止。总归沉淀的久了,该说还是要说说吧。

1. 关于大数据

我是莫名其妙的就被拽入这个领域的。虽然我也经常在一些不得不包装的场合不停的用到“大数据”这个词,但说到底我还是觉得它是硬生生的被炒作出来的。从2011年到现在,有幸在国内国外开了无数的跟“大数据”有关会议,有小有大,有偏学界有偏业界,可是越开越麻木。以至于到最后,我关心的问题就成为了几个:

  • 有什么新的数据被搜集了吗?(比如江南春去扫小区垃圾桶..);
  • 有什么新的领域被攻陷了吗?(比如某些传统行业,如劳动密集型的制造业、餐饮业、个人金融);
  • 有什么新的数据产品出炉了吗?(比如基于数据魔方的新的应用)。

曾经有人戏谑般的问我,“你一个做分析的关心这些high level的东西干啥?”,我的回答很直白,“为了保证不让自己失业”。当然这话有五分打发之意,归根到底的原因可能是,我在寻找灵感,在试图最大化分析的价值,在别人的失败中学习经验(输家往往比赢家更有意思)。换言之,我没打算一直做分析。自从在eBay深度接触了某些做事极端细致的同事之后,我觉得这个领域做到极致也怕就是如斯了。拼不过。

有些问题越来越不关心,因为从分工的角度来看绝非我的比较优势。比如,XX架构改善了数据库存储、查询;XX模型经过某些改进获得了几个点的提升;XX产品可以支撑更大量的数据和更好的实时并发性(这些东西对我来说,有就用,没有也不强求);XX平台实现了XX算法(没有成熟的接口我是不会去碰的)。可能对于数据分析模型的理解(此处单指统计或者机器学习模型),我已经过了那个狂热的沉浸于美好的证明或算法无法自拔的阶段。从一个更高的角度来看,基础设施尚未建设完成(更广泛的数据源搜集、聚合,以及强有力的分析平台建立),谈那么多奇技淫巧有什么用?每每看到BI这个词,就想吐酸水...平心而论,eBay的基础设施建的还是比较好的,一个数据仓库就有几百人的技术团队在维持。

总结一句话:路漫漫其修远兮,做的好的就那么一两家。单单靠分析赚钱没那么容易,先把人才的缺口补上吧。

2. 关于分工和角色

说分工之前,先说说现在的工作。在eBay,听起来很曼妙的两个音节,却很不幸的在它的海外研发中心。若我是个工程师研发产品也就罢了,可惜还在分析这种需要跟业务部门频繁交流的岗位。当然做什么事情都有好和不好的一面,没有绝对的。只是当你还可以选择的时候,当你处在一个不同的职业发展阶段的时候,会有不同的诉求。

回头看,如果我知道现在的工作是这样的模式,我还会在一开始如此选择吗?会的,我很无奈,但没有更好的选择(当时下决心一定要去一个英文环境)。“不畏浮云遮望眼,只缘身在最高层”。那个时候位置太低、浮云太多,很多事情看不清楚。我觉得我很幸运,毕业之后的两份工作都没有让我后悔过。

eBay对我的最大改变就是,让我重新拾回了很多技术细节。比如,对于分布式的理解越来越深,parallel SQL 越写越熟,R的某些包越用越顺手,Shell和SAS被重新拾起,诸如此类吧。这也是我当时离开咨询的目的——做pre-sale support、跟客户天天腻在一起,没有脚踏实地的感觉,每天脑袋瓜子里想的都是“客户到底是怎么想的”,每天都在做各种各样的利益分析。时间久了,觉得每天都在跟演戏一般。

可是在分工链上,技术绝非我最擅长的。开什么玩笑,一个直到研究生都没怎么受过正规编程训练的人,怎么可能拼得过那些国内顶尖学校CS或者EE出身的、一直专注于此的精英们?就算勉强加上模型这块儿,就算凭着还算可以的数学基础我事后补修了很多门机器学习和统计学的课,我也不觉得我能胜得过那些一早儿统计和计算机兼修的有志之士们。太多东西不是纯粹智商和努力可以弥补的,时间是不可逾越的鸿沟。当然如果下定决心一直做下去,也未必没有成就——可是要我抛弃心头挚爱的经济学,做与之完全无关的事情,我做不到。

有个很好玩的词儿叫做“street sense”,我也不知道怎么翻译为佳。有点类似于soft skill的感觉。在我的同事中也有少数这方面很强的人,能明显看到他们的成就卓然不同。对我来讲,这样的感觉或许更佳吧。

3. 关于积累

工作久了,很多人就会跟你说“工作经验比学历更重要”。我的感觉是,看哪个是短板吧?两个还是均衡发展比较好。要不在labor economics之中,也就不必把experience和years of study都作为回归变量了。

工作经验是个很神奇的东西。一方面他会加快你做特定事情的效率(指数式),一方面他也会束缚你的思维。周围看到了许多从技术转到管理岗一开始很不适应的案例。思维方式完全不同嘛。

我个人喜欢把工作经验分为两部分:广泛适用的经验和内部适用的经验。在一个企业一个部门,其实积累的更多更快的是更适用于本部门的一些经验,这两种经验发展不均衡在那些一毕业立刻进入一个企业、一直没有离开过的人身上尤甚。实话讲,如果想在一个大企业里面很快的发展,内部经验尤为重要。Fit the culture。而广泛适用的经验其实对于适应更多的环境、岗位更重要。把赌注都压在一个篮子里面是不明智的...

4. 关于野心

我一直觉得我是一个不安分且具有野心的人。不过时间会把人的奋斗精神消磨,尤其是在一个很容易就活的比较舒服的环境中。

可是当太多事情不能控制,一切浮华便如过眼烟云,与己无关。

Categories
我的生活状态

2012的收获

前一篇偏流水账,就不浪费大家的时间了。

2012的收获大致有:
1. 更多的交流,结识更多新朋友。收益于第一份咨询工作,我学会了如何更好地沟通、让事情更平滑的move on。换位思考是最最宝贵的经验,business最重要的就是和人打交道。受益于新的在eBay的工作,我学会了如何更坚实的结合一个business idea和model,也体会到分析结果对于真实商业行为的影响。每次看到managers的summary sides都让我由衷感慨一下。受益于各种会议沙龙活动,结识了很多不同领域的朋友(就不一一列出了,埋藏感激于心底)。真的,Life is better when shared! 好享受这种互通有无的过程,真诚的沟通一直让人感动。人生何处不相逢,希望有更多的机会可以和这些好朋友们学习。

2. 知识的增长。skill层面,在诸多大牛的熏陶下下,耳濡目染的用R鼓捣起来文本分析,很有趣;从老板和同事那里学了很多SQL技巧;连续七天攻克了SAS。课程方面,跟下来了coursera的model thinking和复旦的elements of statistical learning。另参观了若干博物馆,文化知识稍稍增长。

3. 读书。 抄一下豆瓣的list,几本印象深刻的书:elements of statistical learning(cos论坛大牛推荐),rework(yihui推荐), presentation zen(impress.js推荐), 什么是数学+高观点下的初等数学(周涛推荐),浪潮之巅+数学之美(一位做sales的朋友推荐),the little sas book, 怪诞行为经济学(一位老友推荐),中国哲学史(大学存货),另附若干R书籍。小说方面有印象的就是三体了,三个不眠不休的整日搞定(辞职之后进藏之前),再就是暑假恶补了王家卫的电影(邻居推荐)。

没了...2012还算丰盛,希望2013节奏再快再舒适一点,和大家一起成长!

-------------------

去年的总结在这里:time-to-change/,硕士毕业时候的总结在这里: a-brief-summary-of-my-master-year/。今年的主题依旧是:chasing my dream。

Categories
事儿关经济

安逸的富二代

听着听着音乐,突然间想起一个人,索性捉起笔来,描绘一番。

想说的这个人是我曾经的一个客户,那还是那个上海温暖的象夏天的秋天,也是那个出差跑到陕北冰冻的象冬天的秋天。那是第一次去到陕西榆林的客户那里,第一次自然什么都不顺利,客户基本不怎么搭理我们,一副给你们个机会来办公室喝杯热茶就不错了的姿态。那个时候,可谓见识透了做市场的人的嘴脸变化之快,小心翼翼的陪着笑脸,生怕自己说错了什么被人拿住当作了把柄。事后,还在那里费尽心思的揣摩客户的心思,不知道为什么上午的太阳说变就变成了下午的阴云。天晓得那个时候对我的心理是一种多么大的折磨和考验,职场的水深自那时开始体会...我们那时的客户都是国企,里面明争暗斗派系不断,搞不好就是人为刀俎我为鱼肉,搞不好人家来笑嘻嘻的啃了你都不知道...

只是在那众多的客户中,有那么一个不同寻常的客户。他第一次见我们,特别不友好,是那种放在表面上的不友好。我心里一悸,不知道会不会下一秒就被毫不客气的扫地出门了,心里顿时生出了若干委屈,而奇怪的是那是我居然控制住了内心的万千波澜,还在那里堆满了笑容小心翼翼的询问着一些不得不问的问题。

估且称呼这个客户为度总吧。度总年纪不大,又是技术部门的领导,自然充满了技术范儿。度总是榆林当地人,西北汉子的性格爽朗的很,在这么一个不知道隔壁是不是就藏着暗箭的地儿,也是直来直去的,喜欢就是喜欢,不喜欢就是不喜欢,不加掩饰。也是这一点,让我后来越来越好生感激—其实很多时候这些部门的领导也是只能奉上面领导的指示行事的,有的时候跟你山路十八弯也只是一些不能做的事儿,绕来绕去的,害得我们只能不断的猜度,好生费力。度总则不会跟你浪费时间,说什么就是什么,爽快的很。

隔了一段时间,再去榆林,又见度总。这次上面大概是点头了,所以一路下来我们就只是操作一些具体事务。这个时候度总难得的,坐下来跟我们讨论技术的东西(我一直觉得做咨询尤其是纯乙方,两分技术,八分耐心与人交流),这些相比于人情那些我自然更熟络一些,所以聊起来倒也敞快。度总也是个数码玩具迷,当时正巧背着一个kindle还有一个ipad去了,就跟他相互鼓捣了好久这些玩意儿。还给我拷贝了一些音乐,这也是为什么突然听到这些音乐想起他来的缘故。

后来听说,度总开了一辆非常好的车来上班,大概仅次于他们老总。这显然不会是单位配的。联想到榆林那地儿暴发户甚多(煤炭发家),我们就揣测度总家里怕也是殷实的很。大致的人生轨迹无外乎是,上学,然后毕业家里找点关系塞进国企,舒舒服服的做个闲差头头,舒舒服服的过着小日子,买个几千块的耳机发发烧或者空运几罐普洱解解渴之类。一个三十出头的技术领导,低调而文艺的很~

这种富二代的人生,让人几乎无可指责和羡慕什么。极度的安逸,与世无争。可以喜欢什么玩弄什么,不喜欢就不理会,不用象我们乙方这样天塌下来也得陪着笑(这也是我为什么一度要离开乙方做甲方的推动力)。关键是,你不会觉得他无知,他傲气,你可以感受到他有自己喜欢的东西,只是不用像我们这样需要努力的养活自己而已。但不见得他不能养活自己,搞不好真正做起东西来比我们都要强得多。只是不需要吧。有种大隐隐于市的脱俗感。

不知道,若干年后有没有机会再去品品他沏的那壶温热的普洱,在那个寒冷的秋天唯一让我感到有所温存的普洱。在那个弱肉强食明枪暗箭的环境中,唯一让我敢放下心来细细品品茶的味道的普洱。

Categories
事儿关经济 互联网产业观察

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference?

当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。

这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。

对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个辩护就是,关注的问题太不同了!data mining很多时候关注的是针对每个个体选择适当的信息传递,而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上,针对这一点我现在越来越认同某个计量学家对于consistency的评价了:

(大意)我喜欢计量经济学,正是因为他对于政策制定的强力支撑。

况且,还有quantile regression可以做一个完整的系数分布估计呢!加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨

要会技术(统计、机器学习、可视化、最优化),要懂市场(营销,产品,客户行为,渠道),要懂沟通(同事协同,上级汇报,对外呈现),工具要熟练(SQL、Excel、SAS、ppt),公司战略还要懂点,没准还要带团队,要懂管理……。OMG,我在说什么,不是MBA,是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛(题外话,我等consultant活得也格外艰辛啊,这些加上无穷无尽的出差 -_-|| ),而我后面跟的一句是“市场发展不成熟,分工不明确,相关领域人才太少的恶果”。没办法,只做模型和分析远远不够啊,太少人可以看懂并完美应用了,所以搞分析的不得不自己卷起袖子上阵,即当爹又当妈……

那么说到底,为什么现在big data这么火?为什么 quantitative analysts 对数据源这么 obsessing 呢?我的理解是,

1. 大数据可以很容易的aggregate到适当的level,从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通(既实话又废话)。
2. 大数据使得很多大样本的性质可以直接应用,需要依赖的模型假设大大放松,从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining(又废话了),从而不仅仅服务于单一的policy making,还可以实现定点、极端个性化的信息投递。说白了,就是既可以分析群体特性,又可以兼顾个人特质,像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据,格式整齐(要不搜集成本过高也没法搜集)、数据真实、定义明确,很容易进行data cleaning(一个反例:跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱,统计口径什么的千差万别,数据来源也未必可信)。这样的数据只要简单的编程处理就可以了,把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息,比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用(idea -> result -> implementation)。关于这一点,Frank曾经发给我一个很好的summary,说的是大数据为发展(经济学)带来的新机遇:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的,social network的数据往往都是大数据(得有links嘛),所以既然我的研究兴趣在那里,自然会更多的关注大数据。

那么,大数据的对于分析人员挑战在哪里呢?
1. 从噪音中找到有用的信息: 正如前面所说,大数据包含了太多个体的信息,所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息,对于统计分析专家的思路清晰要求度非常之高(Frank兄曾经对此做过一些简单的批判,业界的一些报告有时候无奈的直接把数据aggregate了,丢失了部分有用信息)。而我总觉得,对数据背景一定要有所了解才可以,不能是简单的大海捞针,还是要有直觉指引方向的。(只针对业界数据,制药行业之类的实验数据我没接触过,没有感觉~)
2. 大数据对于建模者的学术训练背景要求更高: econometrics, data mining等等统计分析方法,及其结合,往往意味着分析者需要有着良好的数据直觉。而这一切,往往离不开一个solid的学术训练背景。最简单的,如果不会C或者python之类的编程,不会R之类的统计软件,那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集,我知道很多人就是excel手动做数据清理,然后扔到stata之类的软件中调用相关的命令(或者可以称之为函数)就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私: 大数据往往来源于个体,这也就意味着data access往往被控制的很严,不可能向所有研究者开放。那么,研究者往往只能接触一个领域、一个公司的数据,而无法是非常全面的行业数据(比如,通信数据你要么有移动的,要么有联通的,不太可能移动联通的同时都给你)。这也多少造成了分析只能从一边入手(依赖双方数据的,比如game theory的实证分析,可能会有些困难)。

暂时先想到这些,或许日后还会补充吧,欢迎各种批判(我只是小小的井底观天而已,加上各种眼高手低、站着说话不腰疼)。其实有的时候,想想自己明明是 more into theories than empiric,但是也就被各种“拉上贼船”下不来了。至少我还是坚信,更难积累的是analytical sense而不是skills,后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说,很多时候还轮不到拼天赋……

(p.s. 发现新版WP的全屏编辑模式很好用啊,很简洁明了令人可以专注写作!)