Categories
互联网产业观察 经济、IT观察与思考

[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。

新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢?

links类数据

微博有两大类links:

  • 粉丝关系
  • 评论与转发关系

然后呢然后呢?

首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。

嗯,这样一个基本的网络模型就构建好了。然后呢?链路预测?等等,我们关注并分析微博数据是为了什么呢?到底构建什么样的指标是合理的呢?

如果你想扩大自己的影响力...

好吧,在下作为一个老字号(落园居然被我坚持写到第6个年头了,这是一种什么精神啊~)blogger,自然可能希望多少扩大一下影响力。落园是落园,blog对我来说有它自己特殊的意义(比如发泄,呃),但是我的新浪微博就沦落为一个落园的notifier了(这个特别的理由就不在这里公开说了,私底下聊)。如是,那么应该怎么办呢?

正常的话,经营一个微博,怎么判断自己是不是越来越受欢迎了呢?显然,简简单单一个“粉丝数”还是不够的,用“转发数”为每个粉丝关系加权也还是不够的,我还得关注一下我的“粉丝”们都是一些什么样的人。比如,他们有几千+的粉丝,还会转发我的东西,那么我的影响力就~哈哈。简单的说,一个衡量指标可以是:我的微博可能会被多少人看到呢?那么,我只要算一下我的粉丝和他们转发的可能性,然后再算他们的粉丝转发他们微博的可能性,以此类推,我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言,这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然,类似的指标还可以构建很多,比如对response进行加权。看具体目的了。我的微博算个特例,因为它有一个特殊性:不转发任何其他微博(机器人自然要符合自己的身份嘛),所以我关注的指标相对单一——我是比较关注“信息能传递到的人”,而不是特别关心他们的response程度(话说最近关评论了,直接刺激大家转发啊,故需要另当别论了)。如果是商业经营一个微博,那么在内容的选择上或许就要更加迎合各自群体的口味,具体的是否可以用Bayesian规则来算算被转发概率呢(不断的update概率)?

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道(沟通成本低嘛),所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家,可以通过找寻自己会员的微博号,来得知他们最近的偏好,然后推荐相应的产品。电商也可以进一步的做一些销售活动,比如我的京东帐号和微博帐号绑定之后,是不是就可以直接留言给京东下单了呢?就像我打个电话似的那么方便。要是他搞什么团购之类的,我也可以直接在微博上买而不是跳转到京东复杂的页面上去,那该多好啊。

对于这样的目的,首要的任务就是找寻自己的用户群,然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外,初期还可以利用社交网络的力量,比如洲际和喜达屋集团都在做一些转发抽奖的活动,让已经关注他们的微博用户来扩散到他们的朋友(所谓物以类聚嘛,自然更有可能也是酒店常客),这样一来就已经实现了用户的识别。然后,怎么引诱这群会员是这些商家的长项,各种美图诱惑之下,让人经常在屋子里面各种坐不住(比如我...)。如果这些用户发一些信息,比如“下周飞北京”,那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户(先发制人啊)……反正至少我认识的玩酒店常客计划的人,都没有只专心的玩一家的。

跟R啥关系?

说了这么多,我们有了一些基本的建模思路。比如希望借助微博扩大影响力,那么最直接的办法:去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格,如果你相信市场是无摩擦的、处于均衡的,自然可以认为价格反映了其影响范围的大小。但是,首先市场就不是一个静态的,难免在动态潮流的波动下偏离均衡;再说怎么可能无摩擦呢,信息不对称总是到处存在的。因此,为了实现现有资金(或其他资源)的集约化投入,往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话,“物以类聚,人以群分”,很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面,如科学松鼠会往往会发布科普类知识,主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之,不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子,我们可以先利用微博的粉丝关系,建立起来一个网络图(更可利用转发情况来建立加权的有向网络)。这在R中可以利用SNA等package完成,或者Gephi之类的更专一的network analysis software。然后在此基础上,分析若干帐户发布的微博关键词(会用到一些text mining技术,其R中的实现可以参见思喆大哥的这篇指导:http://www.bjt.name/2012/03/text-mining-in-r/),然后找到一个或者若干个符合目标群体特征的微博帐户,在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题(think about real analysis...),而加权网络中计算这些并不困难(也可以加入随机的扰动项进行多次模拟得出结果)。最后,自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算,更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题,在R中无论是模拟还是求解都不是难事。最后结论会告知,哪些微博是应该去争取转发的(无论是通过金钱还是内容本身的意义去说服)。

类似的思路,能做的事情还有很多。譬如,哪怕是作为一个个体用户,我只关心某些事情发展的潮流(比如那些会影响股市的情绪),利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源(可能不是全部,或者出于实时性要求无法做到全量检测),即排除噪音,然后这些信息源所提供的信息便有可能给我一些方向上的指导,而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了,背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具,其已经提供的众多packages可以迅速的帮分析人员实现相应的想法,而不是把大量的时间用于无休止的编程以开发相应工具。这样,R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后,很多时候还需要评估效果(这里可以参见去年写的关于社会实验的东西:演讲幻灯片),这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告(简单的分析模型和结果重复可以利用已有的脚本,偏正式的报告可以借助当年的Sweave和进化版如knitr)。

总而言之,我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累,以及一些对于数据的敏锐直觉,而不是编程能力。若有想法便有其他人可以帮忙实现自然好,但是有时候一味的借助他人往往存在着时滞,一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作,只是找到这么一个完美团队的成本实在是太高,更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低,分工模式也会更加的偏向项目执行流程(比如分析->成熟模型->自动化系统),而不是在分析阶段就完全的实现了各展所长(那样对每个成员的要求可能都太高了~)。在效率和效果兼顾的现实情况中,R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然,有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力,而network的数据往往又是一个N*N维的(N为个体数量),更加大了对于空间计算量的需求。这方面,解决思路一方面是把线性的计算分块化、分批跑;对于非线性的计算,更多的则可能是先抽取一个小样本,然后确定一个或几个模型,最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

Categories
互联网产业观察

微博强于博客200倍?

好吧,人家说做研究的第一要点就是怀疑世界——怀疑一切看到的、听到的、闻到的、碰到的、梦到的等等。在这里不争论“眼见为实”这种哲学性话题,我只是很怀疑今天看到的一篇博文,顺便来发发牢骚,所谓针锋对麦芒——至少证明我还在关注互联网吧。今天看到一条标题很诱人的博文:微博力量是博客200倍?

说起来微博,我就喜欢从饭否说起——不管一堆twitter是不是抱着鄙夷的眼光注视着我。饭否是我大多数关于微博的记忆,它满足了我边走在路上边发短信的小怪癖,可以随时的记录一些我脑海中奇奇怪怪的想法。后来,饭否倒掉了,我开始用嘀咕。嘀咕曾经很火,只是一夜东风,花儿都凋零了,未能幸免。这也是我为啥特讨厌新浪围脖的原因,不管你产品如何,这种见缝插针的行为实在让人鄙夷。后来,我就越来越懒了,早早的就拿到了新浪围脖的邀请码注册完后却几乎没用过。以至于,挺奇怪的在不久之后发现新浪再一次通过“名人炒作”这种管用的伎俩,借机上位。当然,我承认,它是有效的。

好吧,说说twitter。说微博不说twitter,就像说独立博客不说wordpress一样,有点太小众情调了。twitter的帐号我也一直有,至今落园右边栏还挂着“follow me on twitter”的宣传画——更可气的是它居然比我的RSS订阅图标还大。twitter开始玩的时候,确实觉得蛮好玩的,弄个嘀咕的“打的”,一下子就可以转过去了,所以我也一直用手机短信的方式更新twitter。后来,twitter成为了“相见不如怀念”,隔墙相望太痛苦。我就彻彻底底的告别了twitter,顺便也告别了微博。

有一次,问一个上了年纪的老外,知不知道啥是blogger。他鄙视的瞄了我一眼,说“我不知道为啥那么多人喜欢在网上晒自己的隐私”(译后)。顿时我无语,我想这伟大的发明又不是神州大地自创的,还不是您老儿那厢的舶来品?他倒是镇定自若,talk on to another topic... WordCamp这两年越来越发展成为twitter爱好者的一种集会,这样我有点不得不感叹自己已然落后于时代。

不只一次有朋友给我叙说微博有多么多么强大,让我觉得我不去鼓捣一下真的是OUT了。但是同时也看到很多人发牢骚说微博的质量不高,每天需要花大量的时间去鉴别。这就是我毅然决然的从Buzz里面unfollow一些绑定twitter的人的缘故。在一定阶段以后,人们对于信息的鉴别成本就远远的高于了取得成本。twitter降低了信息产生和传递的成本,但是与此同时带来的鉴别成本太高。当然,很多人有很好的策略,比如只follow那些切中要害的人的微博而不是广撒网,但是对我来说,还是简简单单的远离比较好。每天Google Reader里面的更新就够我受了。

来,继续回到这篇博文,看看其中的一些经典语句:

第一,能写并有意愿写有价值微博的人群是博客的4倍。第二,这群人的人均微博产量是之前人均博客产量的5倍。这两条讲的是生产成本大大降低。

第三,有时间并且愿意读微博的人群是博客的2倍。第四,适合阅读微博的场所和碎片时间加总是博客的5倍。这两条讲的是消费成本大大降低。

OK,看起来这个人还学过经济学,直到进行最简单的成本-收益分析,不错。单单这一点就胜过多少愤青的博客。不过我稍稍怀疑,第一,微博的人多是真的,但是到底有多少人这么锲而不舍的更新呢?我的理解是,只有微博能给他们带来收益的人,才会持续的更新着。这种收益可能是认同、可能是炒作,还可能是宣泄。值得怀疑的是,过了短暂的新鲜感之后,有多少人还是持之以恒的更新微博,除了名人——我不得不说,新浪这招实在高,名人一旦开始,就不可能说停止就停止,有点像吸毒,容易上瘾——粉丝啊。

再看一句挺有道理的,是关于微博的价值。

尤其是名人,没时间去写长篇大论的博客,但每天都会有很多精到的感悟,在间隙时间写下来,就是上乘之作。

好吧,这能说明什么呢?微博之于博客,就跟你看报纸和看书、甚至喝咖啡一个道理。看报纸,你是在浏览,80%只看标题就足够了。微博也是,浓缩的瞬间。但是你只看报纸不看书?只喝速溶咖啡不喝现磨咖啡?我想不会吧。微博很短,所以“生产成本”小,相对的,博客很长,所以更容易完成的构思和论述一件事儿。你能想象把可能 吧 每篇文章都浓缩成140字?那还读个甚。

下面是作者叙述微博上瘾症:

用微博3周,上瘾了,症状有:工作间隙上msn看签名的习惯忽然断绝,而是xx;进电梯不再盯着江南春的显示屏等着看美女,上厕所不再无所事事光使劲,而 是xx;上班第一动作不再是打开gmail或科技频道,而是xx;堵在路上1小时也不焦躁,而是xx;看着粉丝数往上涨,就像是打怪练级……

读完之后,我感觉,微博确实做到了“挤海绵”的功效,把那些零散的时间搜集起来加以利用,这一点是很赞的。可是我,如果有的话,宁愿带着一个kindle四处溜达,毕竟看书往往更能深入的阅读,深入的阅读才能深入的思考。倒是说起来,微博是一种很好的报纸取代物,看看标题就知道世界在发生什么的感觉也不错,有啥感兴趣的继续上网搜呗。到最后,如果此文不是发于博客,又怎么能这么详细的论述微博的好处呢?始终,博客我认为是一种让人更全面思考问题的方式,而不是一种简单的信息传递方式。在生产成本高的情况下,博客就有了进入门槛,相对应的现存的博文质量也会更高些——当然除了那些四处采集抄袭的网站。在微博时代,博主要更努力的发布有效的信息来吸引眼球,正如博文作者所说的“200倍就是一个噱头”。这也是信息时代一种必然的区分信息质量的结果,却也是有益的。

一句话总结:博客和微博不是竞争关系,而是互联网时代信息载体的互补——广度和深度的互补

微博的产生、繁荣将博客更为细化,就如同分工的专业化,一方面提高效率、一方面凝聚价值。所以,既然各有所用,又何必对博客的生死存亡过于悲观?到现在还坚持写博客的人,必然知道博客对于自己究竟意味着什么,不再是兴起初期的浪潮和泡沫了。但是微博有没有泡沫,还未必可知。只是觉得,落尽繁华始为真(版权所有,此为落园的题名诗),所以我还是静静的坐在落园里面,“笑看云卷云舒,静观花开花落”吧。