Categories
事儿关经济 互联网产业观察

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference?

当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。

这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。

对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个辩护就是,关注的问题太不同了!data mining很多时候关注的是针对每个个体选择适当的信息传递,而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上,针对这一点我现在越来越认同某个计量学家对于consistency的评价了:

(大意)我喜欢计量经济学,正是因为他对于政策制定的强力支撑。

况且,还有quantile regression可以做一个完整的系数分布估计呢!加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨

要会技术(统计、机器学习、可视化、最优化),要懂市场(营销,产品,客户行为,渠道),要懂沟通(同事协同,上级汇报,对外呈现),工具要熟练(SQL、Excel、SAS、ppt),公司战略还要懂点,没准还要带团队,要懂管理……。OMG,我在说什么,不是MBA,是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛(题外话,我等consultant活得也格外艰辛啊,这些加上无穷无尽的出差 -_-|| ),而我后面跟的一句是“市场发展不成熟,分工不明确,相关领域人才太少的恶果”。没办法,只做模型和分析远远不够啊,太少人可以看懂并完美应用了,所以搞分析的不得不自己卷起袖子上阵,即当爹又当妈……

那么说到底,为什么现在big data这么火?为什么 quantitative analysts 对数据源这么 obsessing 呢?我的理解是,

1. 大数据可以很容易的aggregate到适当的level,从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通(既实话又废话)。
2. 大数据使得很多大样本的性质可以直接应用,需要依赖的模型假设大大放松,从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining(又废话了),从而不仅仅服务于单一的policy making,还可以实现定点、极端个性化的信息投递。说白了,就是既可以分析群体特性,又可以兼顾个人特质,像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据,格式整齐(要不搜集成本过高也没法搜集)、数据真实、定义明确,很容易进行data cleaning(一个反例:跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱,统计口径什么的千差万别,数据来源也未必可信)。这样的数据只要简单的编程处理就可以了,把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息,比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用(idea -> result -> implementation)。关于这一点,Frank曾经发给我一个很好的summary,说的是大数据为发展(经济学)带来的新机遇:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的,social network的数据往往都是大数据(得有links嘛),所以既然我的研究兴趣在那里,自然会更多的关注大数据。

那么,大数据的对于分析人员挑战在哪里呢?
1. 从噪音中找到有用的信息: 正如前面所说,大数据包含了太多个体的信息,所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息,对于统计分析专家的思路清晰要求度非常之高(Frank兄曾经对此做过一些简单的批判,业界的一些报告有时候无奈的直接把数据aggregate了,丢失了部分有用信息)。而我总觉得,对数据背景一定要有所了解才可以,不能是简单的大海捞针,还是要有直觉指引方向的。(只针对业界数据,制药行业之类的实验数据我没接触过,没有感觉~)
2. 大数据对于建模者的学术训练背景要求更高: econometrics, data mining等等统计分析方法,及其结合,往往意味着分析者需要有着良好的数据直觉。而这一切,往往离不开一个solid的学术训练背景。最简单的,如果不会C或者python之类的编程,不会R之类的统计软件,那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集,我知道很多人就是excel手动做数据清理,然后扔到stata之类的软件中调用相关的命令(或者可以称之为函数)就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私: 大数据往往来源于个体,这也就意味着data access往往被控制的很严,不可能向所有研究者开放。那么,研究者往往只能接触一个领域、一个公司的数据,而无法是非常全面的行业数据(比如,通信数据你要么有移动的,要么有联通的,不太可能移动联通的同时都给你)。这也多少造成了分析只能从一边入手(依赖双方数据的,比如game theory的实证分析,可能会有些困难)。

暂时先想到这些,或许日后还会补充吧,欢迎各种批判(我只是小小的井底观天而已,加上各种眼高手低、站着说话不腰疼)。其实有的时候,想想自己明明是 more into theories than empiric,但是也就被各种“拉上贼船”下不来了。至少我还是坚信,更难积累的是analytical sense而不是skills,后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说,很多时候还轮不到拼天赋……

(p.s. 发现新版WP的全屏编辑模式很好用啊,很简洁明了令人可以专注写作!)

Categories
读书有感

have to make a note

前几天说要看intro to algorithms,然后居然真的看起来了。我都服了自己了。现在已经达到追美剧的水平了(我就去down了个MIT的公开课,也没字幕什么的,就直接当看美剧了),频率基本一天一集,时间大都在晚上9点以后。我为什么说是看美剧呢,看美剧前总是很自责的跟自己说不要浪费时间,看一会儿就好,然后不知不觉就看完了;看这个教程也是,劝着自己要慢点要慢点,不要一口气看太多,结果每次都是欲罢不能的非要看完一集不可。OMG...我突然发现自己原来这么喜欢做学生的状态啊,恍然一下子回到了2010年冬天lugosi的real analysis课程上,那么的欲罢不能啊!

今天看完了第三集,讲的是各种奇妙的算法。前面的都还好,基本在他讲的时候我就可以跟着想出来后面大概是什么……直到Fibonacci数列,突然看到这种东西,顿时眼前一亮!怎么就没想到可以用矩阵乘法哩?后面看到了矩阵乘法的算法化简思路,明明知道可以用分块矩阵,原来是这样磨来磨去才可以达到O(N^3)一下的啊,也终于明白前阵子看到一篇文章说什么“矩阵乘法的时间复杂度降到2.xxx了”是什么缘故了;最后看到那个"H"形状的树,刹那间明白为啥那么多geek都痴迷于分形了……recursion啊,divide and conquer,真神奇!

不得不在这里稍稍记录一下,原来算法真的这么好玩啊!各种后悔当年没有去学这门课……还好,亡羊补牢,不晚不晚,至少这门课的什么先修课知识(主要是一堆数学知识)我都知道,所以现在还能跟得上看得懂,欣慰+无限庆幸中……数学,或者说逻辑,永远都是那么的好玩啊。

----
最近难得在上海的零碎时间,一直流连在上海图书馆里面。突然间发现自己还是这么喜欢书香的味道,喜欢被书架环绕的氛围(一下子仿佛回到了大三烤G的那段时间),喜欢从架子里取出红皮的AER慢慢翻看(不知为什么,看QJE什么的次数越来越少,AER仿佛成为了我和经济学的最敏感连系),喜欢获取知识的感觉。说白了,喜欢自己做学生的状态吧。清净,充实。

Categories
游来游去

旅行的意义

最近,大部分的时间都花在各种各样的交通工具上。珠海、香港、上海,徘徊在这三个奇妙的城市之间,徜徉着年轻的奢侈。是啊,还不到24,还可谓花样年华吧。昨天去银行,被工作人员一句无意的玩笑提醒了——我已经在独立生活了。标志嘛,很简单,我开始定期的自己交水电费了,而不仅仅是手机费什么的了。

想到一首以前很喜欢的陆游的词,过了这么多年读起来还是这么有味道。

驿外断桥边,寂寞开无主。已是黄昏独自愁,更著风和雨。
无意苦争春,一任群芳妒。零落成泥碾作尘,唯有香如故。

学会了安安静静的自己独处,也学会了在周末的晚上和朋友坐在餐厅里优雅的狂欢。突然间越来越喜欢上海这样的城市,即使曾经看不起她的浮华和奢靡。每一个灯火辉煌的夜晚,每一次看到一个人的狂欢和一群人的孤单。春雨绵绵,雾就这么任性的笼罩着这个躁动的城市。这样也好。

有的时候会不禁的悲哀,不知道什么才是生活真正的压力。看不懂很多人的奋斗,吃不到葡萄说葡萄酸,以为他们就这么凄惨的被社会和现实迷失。然后看看自己的选择,突然间狠狠的嘲笑——你所谓的洒脱,不过是别人眼中的玩笑。幼稚的多么像小孩子的任性和胡闹。

越来越多的寄情于文字,越来越多的变得麻木和淡然。突然间怀念大学的时候,身边总有那么多人,可以倾诉,可以交流,可以漫无目的的在校园里走好几个小时……现在,突然间发现当年的好多东西都成为了奢侈品。谁都无力负担。然后一种代偿的心理似的,周游在各个城市的时候,总想着去拜访一些好久不见的老友,只是为了一顿饭,一杯茶,或者直白地说一种倾诉的快感。看着各自不同的人生轨迹,突然间发现原来工作之后,需要这么小心翼翼的把握自己的方向。再也没有什么约定俗成,或者单一的衡量标准。原来,正是因为如此,人才越来越容易迷失自己。

有的时候觉得,真的,大隐隐于世,只有一直处在别人生动的生活之中,才知道自己想要的是什么。原来,这不仅仅是一种位置的选择,更是一种心灵的坦荡。君子坦荡荡啊。四处旅行,虽然辛苦,却也体会的到人生百味。

Categories
游来游去

浦东机场低云记

今天,浦东机场罕见的低云笼罩(就是本来该在很高的天空的云彩,沉沉的落在地面上了)。然后,就是我的航班悲剧了……

从10点到机场,然后10点起飞,整整在机场度过12个小时……9点出门,2点到家,整整17个小时的旅途……

还好,在我电脑没电、百无聊赖的时候,还可以跟旅行经验丰富的童鞋请教对策。还有东航工作的童年好友帮我分析到底能不能飞回去……各种忐忑中最后还是幸运的登机了。真的,大家都不容易……

什么RP啊,才开始飞来飞去几个月,就碰上这么一趟多年难得一见的事儿。

仅此记录,无他。

Categories
网络新发现

无知的受伤

真的觉得自己有的时候就是没缘由的狂妄,班门弄斧地在各种数学专业的面前卖弄……唉。不丢人就奇怪了。

一大早,一同学QQ问我一个很“深奥”的题,大概就是一群人在排队,怎么来比较快。当时我脑子转啊转,最多也只想到运筹里面涉及的星星点点的图论,然后在R里面弄了半天连穷举怎么举都没想出来……顿时感觉各种悲哀。

最后,忍不住去网上搜了一下,找到了出题教授的网站,然后顺利下到了一个solutions文件。当看到答案的时候,抽了一口凉气,Johnson’s algorithm?这是个神马东东?

果然,算法设计还是一个比较精妙的问题,像我这种连《算法导论》都没读过的人,怎么可能玩的转呢?最近不是很流行的在说,“以大多数人努力程度之低,根本轮不到去拼天赋”。哎!我就是好高骛远、无知使得自己到处丢人的典范啊。

好吧,我觉得还是有必要去读读《算法导论》了,至少这个Johnson’s algorithm我第一遍看wiki没看明白,没找到直觉和来龙去脉什么的。伤心啊。排队论排队论……算法果然水很深啊。