Category: 经济、IT观察与思考

[RAAT]第二话：如果，定格初见~

有句很煽情很酸的文字，叫做“人生若只如初见”，然后再随意的填上几个星星点点的省略号就可以了。初见，嗯，那么多人事匆匆，初见也显得格外珍贵了。有的时候，是不是一别，就不知道何时才能再相见？

如果，如果，你是一个软件的开发者或者网店店主，那么，你和每一位顾客的初见，又是什么样子呢？这个时候第一印象——第一次使用体验或者第一次购买体验，往往是决定了这到底是个回头客还是一去不复返。顾客都是懒的，他不会那么主动的给你提供那么多反馈，那么，你可以怎么了解到他的更多信息呢？如果你自己开发一个软件，那么恭喜，每一次和用户数据交互的时候，你都可以记录一些信息。然后这些信息累加起来，就成为了你们之间的来往信息。可问题是，就算打电话我也不能把她说的每句话都记住啊，更何况来来往往那么多数据。应该保留哪些呢？

好吧，不效仿什么“甄嬛体”了，还是“说人话”吧。继RAAT第一话说了说微博数据与network effect玩法之后，现在的问题是：

如果你是一个app的开发者，你应该记录哪些用户反馈/交互的信息呢？

这个问题是一位创业青年过年的时候问我的，到现在我也只能理出来一个简单的回复，真的是有些抱歉。同样的类似的问题，或者更general一点用学术化的语言来表达，那就是，

在设计一个社会实验/survey的时候，你会问哪些问题、记录那些反馈呢？

或者说，当你面对一个回归分析问题的时候，

你会把那些变量放入回归方程呢？你关心的是哪些纬度呢？

这个问题可能是一个非常ad hoc的，往往需要根据一个具体的产品、业务或者目标来因地制宜的选择。比如，我想提高落园用户的粘性——好不容易来一次，多看几个网页呗，那么除了版式设计什么好看一点之外，我还得多观察一下博文之间的关联性——读过XX的，还倾向于点击XXX。这样，“相关博文”那里就可以优化一下，而不仅仅是现在这样基于tags的关联了——嗯，根据已有用户的阅读行为，来建立collective intelligence记录，然后向新的访客推荐。挺好的不是么？那显而易见的，为了达到这个目标，我需要记录每个访客（比如ip或者cookie识别），landing的网页及其来源、停留的时间、接下来点击的动作等等，大多数指标都可以在google analytics里面看到。

那么对于一个app，用户识别首先不是大的问题——需要购买嘛。这样的话，就不用劳神记录cookie什么的了。然后，从用户体验的角度，往往需要经历一个新手->热衷体验->维持一个稳定的访问/使用频率。依旧以我的这位朋友的产品为例，他们的产品叫做“我有啦”，是一个在线分享自己所拥有的物品的社交平台，类似于一个“物品签到”的概念。现在有个很具体的问题，怎么充分调用network effect来增加新用户、减少流失用户呢？这个过程中，需要什么样的数据呢？

所有基于SNS的产品推广的时期最重要的怕就是利用社会网络自身的network effect扩散特性，最成功的例子大概就是开心网当年利用病毒营销异军突起，利用虚拟游戏当中的奖励刺激用户去邀请自己的亲朋好友加入。然后，开心网的社交游戏特性，又进一步加强了这种朋友联系对于用户使用粘性的正作用（network effect在社交游戏中成功的例子还可见于最近很火的猜词游戏Draw Something）。从直觉来说，用户最乐意向他的朋友们推广一个应用的时候，应该是他使用热度最高的时候--尤其是这种以“炫富”+“拼爹”为卖点的app，不赶紧向自己周围的朋友们炫耀怎么可以呢？

为了识别一个用户的成长轨迹、以便于在他热度很高的时候给予一些奖励（尤其是虚拟地位勋章等等），来刺激他拉自己的朋友进来攀比，必要的数据记录自然是用户每天登陆的时间、地点，然后一连串的点击行为来判断他到底是在摸索这个软件怎么使用还是已经成为了一个熟络的高手（包括错误操作的提示和记录），这样就可以完成初期对于用户成长周期阶段的识别（被用滥了的CRM-customer relation management-系统基本概念之一）。一种理想的情况是，如果根据已有用户的成长记录，发现用户的每日使用时长或者每日点击量呈现S型曲线增长，区别只是增长基数、斜率不同，那么一个简单的函数拟合预测便可以得知用户使用高峰时点的来临，然后采取相应的激励措施。另外一个需要强调的是，在采取了任何策略之后，务必须要关注的就是用户的反馈，这样会知道上一期时点的选择是不是最优的——一种事后的反馈和假设参数的更新。

除了激励用户推荐给自己的亲朋好友之外，network effect另外的应用便是在用户呈现流失倾向的时候，利用朋友的力量来提醒他回来看看。这里有意思的是，根据最近一个基于facebook的研究显示，并不是“来邀请加入的朋友的数量”而是“这些朋友分属的圈子”对邀请成功率有更决定性的影响，因此提醒的时候需要发送的内容也应该是该用户最感兴趣的商品类别以及他最关心的朋友。这样，需要记录的就是他每次访问、评论物品等展现出来的行为，以及他朋友们的互动记录。

到此，直接的一种利用社交圈子的营销机制已经建立，后面进一步利用"用户-物品"双重联系的网路模型还可以进一步优化。暂时直觉只到这里。于我看来，一切所谓的营销都是一个营销资源最优化的投放问题：在最优的时间、对最合适人、采取最优的策略。如是来看，其实什么基于网络与否也只是对资源投放效果的一个预估，和其他一般的营销总体思路并无二致（p.s. 有意思的是，最近还被问到诸如电商 coupon 券应该怎么发放…一样的道理嘛，为了最大化ROI自然是在已有数据的基础上，分析并预测式选择反馈最大的人群，促成其关键购买行为成长环节的转化）。

上述局限：只能知道使用自己开发的产品的用户信息，无法得到并利用其他业务的使用信息，从而偏好数据来源受到极大局限，进而影响全方位对用户的偏好识别、把握以及差异化新产品的推广。换言之，交叉推荐等不可行。

这一话更多的是一些具体的问题和可能的对策，暂时不涉及技术实现策略。在最后一话，针对前两话涉及到的数据搜集及分析，将会尽量给出相应的解决策略，还请稍待片刻。

Tags app, CRM, Facebook, RAAT, ROI, 互动, 交互信息, 分析维度, 初见, 反馈, 定格, 实验设计, 技术实现, 推荐, 数据分析, 数据搜集, 激励, 炫耀, 用户模型, 营销, 营销机制, 集体智慧, 顾客, 预测

游来游去读书有感

up in the air

很久之前就听说有部电影叫做《在云端》，英文对应 up in the air，亦有悬而未决之意。平时忙忙碌碌的，也抽不出时间完整的看部电影。难得周末在家，于是果断去看一下。

只能说，这部电影现在看真的是治愈系啊~ 想想过去两周我的生活，每2~3天换一个城市，接下来还是会如此。各种时空错乱感。而电影里的主人公Ryan，则是一年有322/356天在云端飞来飞去，不是在机场就是在去机场的路上（跟我经常戏谑自己，上海最熟悉的地方就是机场和火车站有异曲同工之妙）……然后，一切都定格在他成为了第七个拿到终身白金、hit 10 millions miles那一刹那。是啊，有句话很残酷：

这世间痛苦的事有两种，一种是得不到你想要的，另一种是得到了。

曾经很煽情的在云端写信，一笔一画、迎着气流的颠簸。连信纸都是云端，加上名字里面的那些云字，真的是像云一样四处飘荡。

看到Ryan和Alex各自打开电脑check彼此的schedule，寻找下一个交点，顿时仿若身临其境。Up in the air...何时是下一次的相逢？各种讽刺、各种无奈，最后化为万千的失落，静静的呆在角落里面腐烂。也难怪Alex实则是有夫之妇，想起她那句"I think our relationship is perfectly clear...you are an escape, my parenthesis."很简单不是么？旅行的寂寞、无聊，需要另一个人来帮忙消遣。

也许是自己处于这样的状态，也认识了越来越多这样飞来飞去的flyers们。有人是为了梦想，有人是迫于生计，有人以此为乐……只是大家都或多或少欠缺了，一份心底的stability。在飞机每次起飞的那一刹那，我唯一的愿望就是要平安的降落。虽然明知，航空事故的概率远远小于车祸等……只是那样的up in the air的感觉，让人真的缺乏安全感。

想想还是徐志摩洒脱，若干年前就写下了，“我挥一挥衣袖，不带走一片云彩”。那些我在机场看过的日出、日盛和日落，那些繁星点点和夕阳余辉下的云彩变化出的万千形态，一切都成为了特殊而美好的记忆。Stay lonely, stay strong，以不变、应万变。

很喜欢douban上的一段影评：

看电影的过程中，一个明显的感觉就是，这部电影简直就是乔治·克鲁尼，这个好莱坞最著名的砖石王老五，自己前半生的真实写照，真的很想知道他本人演完这个角色后心理有何感想？内心有没有什么变化？

能触动人内心的，都是那些似曾相识的故事吧……

Tags up in the air, 乔治·克鲁尼, 云, 云彩, 似曾相识, 余辉, 写信, 在云端, 夕阳, 寂寞, 无聊, 日出, 日落, 时空错乱感, 机场, 电影, 触动, 飞机

互联网产业观察经济、IT观察与思考

[RAAT]第一话：微博的数据该怎么玩呢?

引言(即废话)：每当要准备presentation的时候，就会开始想一些问题。去年写的是【社会实验的特殊性】，然后有一系列的文字和最终的slides。现在，想多少从自己这大半年的工作经历出发，写一系列文章，就叫做 R as an analytical tool吧，简称RAAT。第一话，从微博入手好了；第二话，将由Joke童鞋过年时候问的一个问题引出；第三话，会是更偏向流程和实践的东西。这些我会一点点写，也可能有所改变，看到时候具体的想法了。

新浪微博也火了这么久了，但是对于吾等数据源控来说，这等数据简直不能被暴殄天物啊。怎么用来分析为好呢？

links类数据

微博有两大类links:

粉丝关系
评论与转发关系

然后呢然后呢？

首先很多人感兴趣的是信息传递吧？那么决定信息传递的就是，第一呢，每个用户的信息源（主要来自于他关注的其他微博用户）；第二呢，他关注的人的发布及转发行为。用粉丝关系来计算影响力（influential rank）自然是没有问题，但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是？所以，一个简单可行的思路是，这里不妨用其转发行为来加权，判断每个他关注的用户对于他的影响程度的不同～如是，则每个有向的link上就附加了一个权重，成为了一个加权的有向图。

嗯，这样一个基本的网络模型就构建好了。然后呢？链路预测？等等，我们关注并分析微博数据是为了什么呢？到底构建什么样的指标是合理的呢？

如果你想扩大自己的影响力...

好吧，在下作为一个老字号（落园居然被我坚持写到第6个年头了，这是一种什么精神啊~）blogger，自然可能希望多少扩大一下影响力。落园是落园，blog对我来说有它自己特殊的意义（比如发泄，呃），但是我的新浪微博就沦落为一个落园的notifier了（这个特别的理由就不在这里公开说了，私底下聊）。如是，那么应该怎么办呢？

正常的话，经营一个微博，怎么判断自己是不是越来越受欢迎了呢？显然，简简单单一个“粉丝数”还是不够的，用“转发数”为每个粉丝关系加权也还是不够的，我还得关注一下我的“粉丝”们都是一些什么样的人。比如，他们有几千+的粉丝，还会转发我的东西，那么我的影响力就～哈哈。简单的说，一个衡量指标可以是：我的微博可能会被多少人看到呢？那么，我只要算一下我的粉丝和他们转发的可能性，然后再算他们的粉丝转发他们微博的可能性，以此类推，我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言，这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然，类似的指标还可以构建很多，比如对response进行加权。看具体目的了。我的微博算个特例，因为它有一个特殊性：不转发任何其他微博（机器人自然要符合自己的身份嘛），所以我关注的指标相对单一——我是比较关注“信息能传递到的人”，而不是特别关心他们的response程度（话说最近关评论了，直接刺激大家转发啊，故需要另当别论了）。如果是商业经营一个微博，那么在内容的选择上或许就要更加迎合各自群体的口味，具体的是否可以用Bayesian规则来算算被转发概率呢（不断的update概率）？

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道（沟通成本低嘛），所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家，可以通过找寻自己会员的微博号，来得知他们最近的偏好，然后推荐相应的产品。电商也可以进一步的做一些销售活动，比如我的京东帐号和微博帐号绑定之后，是不是就可以直接留言给京东下单了呢？就像我打个电话似的那么方便。要是他搞什么团购之类的，我也可以直接在微博上买而不是跳转到京东复杂的页面上去，那该多好啊。

对于这样的目的，首要的任务就是找寻自己的用户群，然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外，初期还可以利用社交网络的力量，比如洲际和喜达屋集团都在做一些转发抽奖的活动，让已经关注他们的微博用户来扩散到他们的朋友（所谓物以类聚嘛，自然更有可能也是酒店常客），这样一来就已经实现了用户的识别。然后，怎么引诱这群会员是这些商家的长项，各种美图诱惑之下，让人经常在屋子里面各种坐不住（比如我...）。如果这些用户发一些信息，比如“下周飞北京”，那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户（先发制人啊）……反正至少我认识的玩酒店常客计划的人，都没有只专心的玩一家的。

跟R啥关系？

说了这么多，我们有了一些基本的建模思路。比如希望借助微博扩大影响力，那么最直接的办法：去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格，如果你相信市场是无摩擦的、处于均衡的，自然可以认为价格反映了其影响范围的大小。但是，首先市场就不是一个静态的，难免在动态潮流的波动下偏离均衡；再说怎么可能无摩擦呢，信息不对称总是到处存在的。因此，为了实现现有资金（或其他资源）的集约化投入，往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话，“物以类聚，人以群分”，很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面，如科学松鼠会往往会发布科普类知识，主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之，不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子，我们可以先利用微博的粉丝关系，建立起来一个网络图（更可利用转发情况来建立加权的有向网络）。这在R中可以利用SNA等package完成，或者Gephi之类的更专一的network analysis software。然后在此基础上，分析若干帐户发布的微博关键词（会用到一些text mining技术，其R中的实现可以参见思喆大哥的这篇指导：http://www.bjt.name/2012/03/text-mining-in-r/），然后找到一个或者若干个符合目标群体特征的微博帐户，在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题（think about real analysis...），而加权网络中计算这些并不困难（也可以加入随机的扰动项进行多次模拟得出结果）。最后，自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算，更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题，在R中无论是模拟还是求解都不是难事。最后结论会告知，哪些微博是应该去争取转发的（无论是通过金钱还是内容本身的意义去说服）。

类似的思路，能做的事情还有很多。譬如，哪怕是作为一个个体用户，我只关心某些事情发展的潮流（比如那些会影响股市的情绪），利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源（可能不是全部，或者出于实时性要求无法做到全量检测），即排除噪音，然后这些信息源所提供的信息便有可能给我一些方向上的指导，而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了，背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具，其已经提供的众多packages可以迅速的帮分析人员实现相应的想法，而不是把大量的时间用于无休止的编程以开发相应工具。这样，R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后，很多时候还需要评估效果（这里可以参见去年写的关于社会实验的东西：一、二、三、演讲幻灯片），这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告（简单的分析模型和结果重复可以利用已有的脚本，偏正式的报告可以借助当年的Sweave和进化版如knitr）。

总而言之，我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累，以及一些对于数据的敏锐直觉，而不是编程能力。若有想法便有其他人可以帮忙实现自然好，但是有时候一味的借助他人往往存在着时滞，一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作，只是找到这么一个完美团队的成本实在是太高，更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低，分工模式也会更加的偏向项目执行流程（比如分析->成熟模型->自动化系统），而不是在分析阶段就完全的实现了各展所长（那样对每个成员的要求可能都太高了~）。在效率和效果兼顾的现实情况中，R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然，有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力，而network的数据往往又是一个N*N维的（N为个体数量），更加大了对于空间计算量的需求。这方面，解决思路一方面是把线性的计算分块化、分批跑；对于非线性的计算，更多的则可能是先抽取一个小样本，然后确定一个或几个模型，最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

经济、IT观察与思考

发改委打的飞机和引发的地震

Post author By Liyun
Post date March 22, 2012

最近比较流行的段子，发改委继打完飞机后，又开始引发地震了～

打飞机的段子(截取)：

2009年3月25日
发改委决定将汽、柴油价格每吨分别提高290元和180元
当天，美国空军一架正在执行测试飞行F-22“猛禽”战机加州爱德华兹空军基地以北六英里的地方坠毁。
2009年6月1日
发改委发布调价通知，上涨油价
当天14时,一架载有228人的法航空客A330起飞不久后与地面失去联系。机上228人全部遇难,其中包括9名中国人。
2009年6月30日
发改委再次发布调价通知，上涨油价
一架载有154人的客机在从也门前往科摩罗的途中坠毁
2009年7月15日
发改委就成品油价格问题发表说明，称价格未调整到位
当日，伊朗里海航空公司的一架客机在该国西北部城市加兹温附近的村庄坠毁，机上153名乘客和15名机组人员全部遇难。
...

当然很大程度上反映的是大家的情绪，但是这样的东西真的可信吗？“巧合”真的有那么多吗？让我们看一眼最近几年油价调整和飞机失事的记录(完整数据集在这里：oil_price.xlsx，数据来源分别是Wiki的失事记录和搜狐的油价调整记录)。

（最上面的一行蓝点是涨价；中间是降价；最下面一行红点是飞机失事。点击上图查看大图）
看出来了吧，首先呢，发改委的油价调整是有涨有跌的。可是这条新闻明显只挑着涨价的来说事儿；然后，飞机一年失事也得有二三十次，发改委调价也就是一年几次……换言之，发改委要想挑个飞机完全不失事的时间区间，还真有点难！

既然这个明显是选择性样本，那么我姑且臆测一下几个结论：
1. 发改委每次降价，也是在打飞机。
2. 发改委不涨不降油价，飞机也照样掉下来无误，所谓躺着也中枪啊～

其实本来就是无影儿的事儿，真的是黑的也能说，白的也能描。翻手为云，覆手为雨。不要轻易相信所谓的“统计数字”哦！如果你信这种所谓证据，我再给你抓一把出来～什么稀奇古怪的东西都能被我关联起来，亲，你信吗？我还能找出更漂亮的看起来更科学的模型来包装一下，让你觉得“超级专业”……真的是，选择性样本误人啊！

好吧，其实我写这个的目的，只是想说，不要轻易被这种“别有用心”的统计数字骗到！统计一下估计这连个correlation都不算，新闻稿却写的信誓旦旦的跟前因后果似的（关于causality inference的事儿，还敬请期待COS上dingpeng兄的大作哦！）

同样的道理估计也适用于下面的段子，证据我就先偷个懒，不找了。

墨西哥又地震了!!因为发改委又涨油价了 2010年4月13日发改委上调油价玉树7.1级地震。2010年10月25日发改委调油价，印尼苏门答腊岛7.2级地震。2010年12月22上调油价，日本7.4级地震。 2011年2月20日发改委调油价新西兰6.5级地震。2011年4月7日发改委上调油价墨西哥发生6.5级地震日本再发生7.4级地震

还有这个，我窃以为数字不是这样的，也没去细细的追本溯源。大家可以帮忙斧正一下。

---
题外话：虽说这里说了这么多，只是想证明这样的段子荒谬之处，但是背后其实可以理解的是，这只是大家宣泄情绪的方式而已。物价上涨、生活成本增加，林林总总，总要给人出气的机会的。不过，也只能出出气而已，深刻的改变需要太多太多的努力，也可能不是一挥而就的，需要量变产生质变啊。

Tags 发改委, 地震, 打飞机, 新闻, 油价, 统计数字, 选择性样本

事儿关经济互联网产业观察

大数据的潮流？

一边是流浪的心，一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午，说到了一个很有意思的话题，“我们为什么需要海量数据”？或者说， why and how does big data make a difference?

当时说的统计/计量分析的应用很简单，无非是做一些销量、价格弹性和资源投放的预测与优化罢了，典型的咨询业务。然后我就好奇的问了一句数据源，无非是nielsen或者iresearch的市场调查数据之类的，或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度，所以一般都是long panel（T>N），以城市为单位之类的。

这样的数据量，肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯，我们多少也会把这些原始数据做一个aggregate，比如以每人每日为单位（当然单位的选择取决于具体项目的关注点），但是大多数还是wide panel，N>>T。这两种panel data的（计量）模型显然就不一样了。一个会更多的沿袭time series的分析路子，什么auto-regression、unit root之类的；另外一个要沿袭的更多是cross-section的方法，关注大量个体的特性。

对计量的一个争议就是 ATE （average treatment effect），尤其是做data mining的那些人。明明individuals之间千差万别，计量怎么可以这么简单的取个平均呢？不过一个辩护就是，关注的问题太不同了！data mining很多时候关注的是针对每个个体选择适当的信息传递，而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上，针对这一点我现在越来越认同某个计量学家对于consistency的评价了：

（大意）我喜欢计量经济学，正是因为他对于政策制定的强力支撑。

况且，还有quantile regression可以做一个完整的系数分布估计呢！加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨，

要会技术（统计、机器学习、可视化、最优化），要懂市场（营销，产品，客户行为，渠道），要懂沟通（同事协同，上级汇报，对外呈现），工具要熟练（SQL、Excel、SAS、ppt），公司战略还要懂点，没准还要带团队，要懂管理……。OMG，我在说什么，不是MBA，是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛（题外话，我等consultant活得也格外艰辛啊，这些加上无穷无尽的出差 -_-|| ），而我后面跟的一句是“市场发展不成熟，分工不明确，相关领域人才太少的恶果”。没办法，只做模型和分析远远不够啊，太少人可以看懂并完美应用了，所以搞分析的不得不自己卷起袖子上阵，即当爹又当妈……

那么说到底，为什么现在big data这么火？为什么 quantitative analysts 对数据源这么 obsessing 呢？我的理解是，

1. 大数据可以很容易的aggregate到适当的level，从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通（既实话又废话）。
2. 大数据使得很多大样本的性质可以直接应用，需要依赖的模型假设大大放松，从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining（又废话了），从而不仅仅服务于单一的policy making，还可以实现定点、极端个性化的信息投递。说白了，就是既可以分析群体特性，又可以兼顾个人特质，像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据，格式整齐（要不搜集成本过高也没法搜集）、数据真实、定义明确，很容易进行data cleaning（一个反例：跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱，统计口径什么的千差万别，数据来源也未必可信）。这样的数据只要简单的编程处理就可以了，把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息，比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用（idea -> result -> implementation）。关于这一点，Frank曾经发给我一个很好的summary，说的是大数据为发展（经济学）带来的新机遇：http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的，social network的数据往往都是大数据（得有links嘛），所以既然我的研究兴趣在那里，自然会更多的关注大数据。

那么，大数据的对于分析人员挑战在哪里呢？
1. 从噪音中找到有用的信息：正如前面所说，大数据包含了太多个体的信息，所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息，对于统计分析专家的思路清晰要求度非常之高（Frank兄曾经对此做过一些简单的批判，业界的一些报告有时候无奈的直接把数据aggregate了，丢失了部分有用信息）。而我总觉得，对数据背景一定要有所了解才可以，不能是简单的大海捞针，还是要有直觉指引方向的。（只针对业界数据，制药行业之类的实验数据我没接触过，没有感觉～）
2. 大数据对于建模者的学术训练背景要求更高： econometrics, data mining等等统计分析方法，及其结合，往往意味着分析者需要有着良好的数据直觉。而这一切，往往离不开一个solid的学术训练背景。最简单的，如果不会C或者python之类的编程，不会R之类的统计软件，那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集，我知道很多人就是excel手动做数据清理，然后扔到stata之类的软件中调用相关的命令（或者可以称之为函数）就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私：大数据往往来源于个体，这也就意味着data access往往被控制的很严，不可能向所有研究者开放。那么，研究者往往只能接触一个领域、一个公司的数据，而无法是非常全面的行业数据（比如，通信数据你要么有移动的，要么有联通的，不太可能移动联通的同时都给你）。这也多少造成了分析只能从一边入手（依赖双方数据的，比如game theory的实证分析，可能会有些困难）。

暂时先想到这些，或许日后还会补充吧，欢迎各种批判（我只是小小的井底观天而已，加上各种眼高手低、站着说话不腰疼）。其实有的时候，想想自己明明是 more into theories than empiric，但是也就被各种“拉上贼船”下不来了。至少我还是坚信，更难积累的是analytical sense而不是skills，后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说，很多时候还轮不到拼天赋……

（p.s. 发现新版WP的全屏编辑模式很好用啊，很简洁明了令人可以专注写作！）