Gephi – 落园

今天登上Coursera一看，随便点开几门课居然都是用R来辅助的...R是什么时候悄悄的渗透到这么多大学和行业的哇？孤陋寡闻了呢。

入门的，如专门的数据分析计算，有一门Computing for Data Analysis，是时长为4节的R语言课程。讲的貌似比较基础：

This course is about learning the fundamental computing skills necessary for effective data analysis. You will learn to program in R and to use R for reading data, writing functions, making informative graphs, and applying modern statistical methods.

还有一门类似的，Data Analysis（居然是Johns Hopkins的生物统计研究生院一年级的课程）：

This course will focus on how to plan, carry out, and communicate analyses of real data sets. While we will cover the basics of how to use R to implement these analyses, the course will not cover specific programming skills. Computing for Data Analysis will cover some statistical programming topics that will be useful for this class, but it is not a prerequisite for the course.

当然，基础的统计课程也是R的天下了：Statistics One

Statistics One also provides an introduction to the R programming language. All the examples and assignments will involve writing code in R and interpreting R output. R software is free! It is also an open source programming language. What this means is you can download R, take this course, and start programming in R after just a few lectures.

经济与计量、金融计算自然也不能免俗...Introduction to Computational Finance and Financial Econometrics

Learn mathematical and statistical tools and techniques used in quantitative and computational finance. Use the open source R statistical programming language to analyze financial data, estimate statistical models, and construct optimized portfolios.

自然还有类似的金融课程：Financial Engineering and Risk Management

With regards to programming, we have designed the course so that all required "programming" questions can be completed within Excel. However some questions may be easier to complete using Matlab, R, Python etc.

然后居然还看到社会网络分析也是用R来辅助的：Social Network Analysis，这里有我最喜欢的Gephi和R，咿呀呀，不奇怪的嘛，好歹我也是研究了SNA那么久了呢。

We will be using Gephi for visualization and analysis. The interactive demonstrations will be primarily in NetLogo, which you will be able to access through your web browser. If you would like to complete the programming assignments, which will be done in NetLogo and R, NetLogo is freely available here and R is freely available here.

显然这远远没有结束...生统方面，Mathematical Biostatistics Boot Camp自然也是用R的：

What resources will I need for this class?
Please download and install the R statistical programming language.

临床上也是...Data Management for Clinical Research：

What resources will I need for this class?
For this course, you will need: 1) an Internet connection; 2) software package capable of generating table-based CSV files (e.g. Microsoft Excel, Google Docs, Numbers); and 3) and an install of the open-source R programming platform.

好吧，我已经不奇怪会看到更多的了。这两年业界对于R的需求井喷，绝对跟学校里面的教育脱不开干系。不过如果我只是一味列举而不是比较，那岂不是有违统计学风范？R跟C或者Java比显然没有意思...不是做一件事儿的嘛。SAS的结果只有一门，Passion Driven Statistics，我猜很大程度上是这东西不免费，不能让每个学生都有的用;Matlab就多很多了，主要是Matlab的计算确实强大，其他的跟它确实没法比啊（至今我写模拟还是喜欢在Matlab里面写矩阵运算...R里面涉及到无路可逃的循环真的是让人忍无可忍），目测有9门课程使用。注：Stata结果为0，哎，真的是打不过免费软件啊。

赘述完毕...

引言(即废话)：每当要准备presentation的时候，就会开始想一些问题。去年写的是【社会实验的特殊性】，然后有一系列的文字和最终的slides。现在，想多少从自己这大半年的工作经历出发，写一系列文章，就叫做 R as an analytical tool吧，简称RAAT。第一话，从微博入手好了；第二话，将由Joke童鞋过年时候问的一个问题引出；第三话，会是更偏向流程和实践的东西。这些我会一点点写，也可能有所改变，看到时候具体的想法了。

新浪微博也火了这么久了，但是对于吾等数据源控来说，这等数据简直不能被暴殄天物啊。怎么用来分析为好呢？

links类数据

微博有两大类links:

粉丝关系
评论与转发关系

然后呢然后呢？

首先很多人感兴趣的是信息传递吧？那么决定信息传递的就是，第一呢，每个用户的信息源（主要来自于他关注的其他微博用户）；第二呢，他关注的人的发布及转发行为。用粉丝关系来计算影响力（influential rank）自然是没有问题，但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是？所以，一个简单可行的思路是，这里不妨用其转发行为来加权，判断每个他关注的用户对于他的影响程度的不同～如是，则每个有向的link上就附加了一个权重，成为了一个加权的有向图。

嗯，这样一个基本的网络模型就构建好了。然后呢？链路预测？等等，我们关注并分析微博数据是为了什么呢？到底构建什么样的指标是合理的呢？

如果你想扩大自己的影响力...

好吧，在下作为一个老字号（落园居然被我坚持写到第6个年头了，这是一种什么精神啊~）blogger，自然可能希望多少扩大一下影响力。落园是落园，blog对我来说有它自己特殊的意义（比如发泄，呃），但是我的新浪微博就沦落为一个落园的notifier了（这个特别的理由就不在这里公开说了，私底下聊）。如是，那么应该怎么办呢？

正常的话，经营一个微博，怎么判断自己是不是越来越受欢迎了呢？显然，简简单单一个“粉丝数”还是不够的，用“转发数”为每个粉丝关系加权也还是不够的，我还得关注一下我的“粉丝”们都是一些什么样的人。比如，他们有几千+的粉丝，还会转发我的东西，那么我的影响力就～哈哈。简单的说，一个衡量指标可以是：我的微博可能会被多少人看到呢？那么，我只要算一下我的粉丝和他们转发的可能性，然后再算他们的粉丝转发他们微博的可能性，以此类推，我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言，这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然，类似的指标还可以构建很多，比如对response进行加权。看具体目的了。我的微博算个特例，因为它有一个特殊性：不转发任何其他微博（机器人自然要符合自己的身份嘛），所以我关注的指标相对单一——我是比较关注“信息能传递到的人”，而不是特别关心他们的response程度（话说最近关评论了，直接刺激大家转发啊，故需要另当别论了）。如果是商业经营一个微博，那么在内容的选择上或许就要更加迎合各自群体的口味，具体的是否可以用Bayesian规则来算算被转发概率呢（不断的update概率）？

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道（沟通成本低嘛），所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家，可以通过找寻自己会员的微博号，来得知他们最近的偏好，然后推荐相应的产品。电商也可以进一步的做一些销售活动，比如我的京东帐号和微博帐号绑定之后，是不是就可以直接留言给京东下单了呢？就像我打个电话似的那么方便。要是他搞什么团购之类的，我也可以直接在微博上买而不是跳转到京东复杂的页面上去，那该多好啊。

对于这样的目的，首要的任务就是找寻自己的用户群，然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外，初期还可以利用社交网络的力量，比如洲际和喜达屋集团都在做一些转发抽奖的活动，让已经关注他们的微博用户来扩散到他们的朋友（所谓物以类聚嘛，自然更有可能也是酒店常客），这样一来就已经实现了用户的识别。然后，怎么引诱这群会员是这些商家的长项，各种美图诱惑之下，让人经常在屋子里面各种坐不住（比如我...）。如果这些用户发一些信息，比如“下周飞北京”，那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户（先发制人啊）……反正至少我认识的玩酒店常客计划的人，都没有只专心的玩一家的。

跟R啥关系？

说了这么多，我们有了一些基本的建模思路。比如希望借助微博扩大影响力，那么最直接的办法：去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格，如果你相信市场是无摩擦的、处于均衡的，自然可以认为价格反映了其影响范围的大小。但是，首先市场就不是一个静态的，难免在动态潮流的波动下偏离均衡；再说怎么可能无摩擦呢，信息不对称总是到处存在的。因此，为了实现现有资金（或其他资源）的集约化投入，往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话，“物以类聚，人以群分”，很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面，如科学松鼠会往往会发布科普类知识，主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之，不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子，我们可以先利用微博的粉丝关系，建立起来一个网络图（更可利用转发情况来建立加权的有向网络）。这在R中可以利用SNA等package完成，或者Gephi之类的更专一的network analysis software。然后在此基础上，分析若干帐户发布的微博关键词（会用到一些text mining技术，其R中的实现可以参见思喆大哥的这篇指导：http://www.bjt.name/2012/03/text-mining-in-r/），然后找到一个或者若干个符合目标群体特征的微博帐户，在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题（think about real analysis...），而加权网络中计算这些并不困难（也可以加入随机的扰动项进行多次模拟得出结果）。最后，自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算，更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题，在R中无论是模拟还是求解都不是难事。最后结论会告知，哪些微博是应该去争取转发的（无论是通过金钱还是内容本身的意义去说服）。

类似的思路，能做的事情还有很多。譬如，哪怕是作为一个个体用户，我只关心某些事情发展的潮流（比如那些会影响股市的情绪），利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源（可能不是全部，或者出于实时性要求无法做到全量检测），即排除噪音，然后这些信息源所提供的信息便有可能给我一些方向上的指导，而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了，背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具，其已经提供的众多packages可以迅速的帮分析人员实现相应的想法，而不是把大量的时间用于无休止的编程以开发相应工具。这样，R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后，很多时候还需要评估效果（这里可以参见去年写的关于社会实验的东西：一、二、三、演讲幻灯片），这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告（简单的分析模型和结果重复可以利用已有的脚本，偏正式的报告可以借助当年的Sweave和进化版如knitr）。

总而言之，我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累，以及一些对于数据的敏锐直觉，而不是编程能力。若有想法便有其他人可以帮忙实现自然好，但是有时候一味的借助他人往往存在着时滞，一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作，只是找到这么一个完美团队的成本实在是太高，更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低，分工模式也会更加的偏向项目执行流程（比如分析->成熟模型->自动化系统），而不是在分析阶段就完全的实现了各展所长（那样对每个成员的要求可能都太高了~）。在效率和效果兼顾的现实情况中，R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然，有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力，而network的数据往往又是一个N*N维的（N为个体数量），更加大了对于空间计算量的需求。这方面，解决思路一方面是把线性的计算分块化、分批跑；对于非线性的计算，更多的则可能是先抽取一个小样本，然后确定一个或几个模型，最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

Hello World

links类数据

如果你想扩大自己的影响力...

如果你是想提供一个互动渠道……

跟R啥关系？