Categories
读书有感

最近几篇社交网络分析 (SNS)

最近关注了一下SNS这边的研究,主要是Linkedin, Quota 和 Facebook。

先贴一下链接:

简单提纲挈领一下这三篇都是干啥的。

  • linkedin那篇主要是说在一个社交网络中,设计一个随机实验是比较困难的,主要是有"溢出效应(spill-over effect)"或者其他network effect,所以就不满足独立同分布的a/b test 假设了。比如,linkedin改变了一个人首页的feed,然后他评论或者转发了一下,他的朋友(control)组里面的也就可能看到;或者说linkedin给一些用户首页展现"endorsement",那这个显然是有溢出效应的(甲 endorse 乙,乙也很有可能反过来endorse 甲)。所以他们做的主要是三件事:分析简单纯随机a/b test的不足、建立数学模型并数值模拟基于已知网络结构的网络效应、采用聚类(clustering or particition)的办法随机实验各个小群体。
  • facebook那篇跟容易让人想起来他们以前那次在大选之前拿用户feed做实验。我总感觉facebook有一群潜伏的政治学研究者...这次这篇发在《科学》上的倒是没有做实验,只是分析了一下朋友们之间的政治观点异同。此外,他们还画了一下不同政治观点(保守、中立、自由)群体的网络样子。
  • quota那篇相对来讲就稍微没那么成熟。我跑到那个meetup去了所以大概说一下idea。quora关注的是如何让用户找到感性的问题、以及如何找到最合适的人来回答。所以他们很关心一个问题能在network里面传递多远、多久。他们有一些social channels、比如你关注的人的动态、你关注的话题的动态之类的;还有一些非social的channel,比如google,比如摘要邮件。所以他们就来分析,是不是follower越多的人的回答越容易得到更多的upvote(类似于点赞)呢?答案是肯定的,但是随着时间的衰减social channel的作用越来越弱,最终收敛到60%还是多少来着。其他的分析也大致跟此相关,描述性分析为主。

总结:sns现在做的越来越细致、更注重于问题本身而不是炫技。大致的问题主要有:信息是怎么在社交网络传递的?不同群体之间的差别与联系?人们是怎么被网络中的变化所影响的?这种影响如何量化?如果要做实验,怎么控制溢出效应?如果要做模拟,怎么有效的利用各种信息和已知的网络结构?

一点点在推进科学的进步的感觉?

Categories
事儿关经济 互联网产业观察

复杂网络的几何模型?

有点时候觉得复杂网络之所以可爱,就是在一个特定的场合下或许可以几何化,变得很直观。当然,简单的几何化就是点与点之间的连线,不过那样我倒是觉得稍显纷杂,虽然有方程可以描述,但还是不够简洁。

前几天在校内无聊的看帖子,有个很恶俗的帖子中有句很经典的话,大意是:

想知道你的年收入是多少吗?把你周围的10个好朋友的年收入加起来,然后除以10得到的平均数就大概是你的年收入。

这句话的依据就是“物以类聚,人以群分”,所以你的社交圈往往也离自己的实际生活不会太远。姑且我们不去深挖那些细节上的陷阱,从一种很单纯的层面来看,假设每个人只与10个人有社会网络意义上的联系,而后整个社会(比如有1000人)以这种联系互相连接在一起,且满足每个结点(即每个人)上的数值等于周围结点平均值。那么这个模型会是什么样子呢?

当然这可能是个三维空间都承载不下的几何模型,我的第一反应是“球”。简而言之,这个“球”得是一个匀质的球。球有什么好的特性呢?下面细说。

不知道大家有没有一个比较奇怪的“习惯性动作”,反正我是经常会这样,那就是在看电视的时候没事干就折腾遥控器玩。我折腾遥控器的一大习惯就是在遥控器的所有键上找到一个键,可以用手指单点这个键的时候足以支撑整个遥控器的平衡。其实说白了,就是找一个近似的“重心”。

球最好的特性之一就是在球面任何一个点栓一根绳,然后垂直下落,那么通过该点的垂线一定通过球心。如果我们此时把球分层面来看,那该点也一定是这个层面上的“重心”。不知我这样的说法是不是有些难以理解,简而言之就是你用手指顶起球面上任意一个点,都可以举起球来,就像篮球运动员转球似的。这样的平衡,是不是可以视之为一个“不动点”?

在社会网络这个模型中,或许很难去定义一个“重力”或言之“外部物体的引力”,可能只有内部各个节点之间的“万有引力”。这样一来,是不是在某种意义下各个结点都可视为一个特定层面的“重心”,从而满足了“该点值等于周围结点的平均值”?当然这里对于每个点的赋值或许要稍稍复杂些,甚至不一定是静态赋值(即可能是某个其他值的函数),因为我们在转球的时候就重新切割了层面,所以原来的坐标轴实质上已经改变了。

当然,我喜欢球的另外一个因素,就是很容易从中分离出其他的简单模型,比如“正四面体”。正四面体的每个顶点都满足到其他三个点的距离相等,而且也可以视作重心在各个层面上的“投影”。这样一来,从逼近的角度,我感觉最后还是会成为一个近似的“球体”。

这样绕来绕去或许有些繁琐了,也离我们起初的议题有些远了。可惜我一时想不出来什么办法来检验一下上面那个“收入平均值”的命题,若是能有如此的数据或许真的可以建立起来一个比较好玩的社会网络模型,然后看看它到底长得什么样子。大家喜欢社会网络模型可能的原因是它可以很容易的嵌套入各个细微的领域,是研究从个人行为到群体行为聚集的一种模拟。或许这样一来,经济学和心理学关心的很多议题,比如储蓄行为、利他行为都可以找到一种新的解释。

最后推荐一篇报道吧,可能有点稍显陈旧,是Economist杂志一月底的一篇特别报道:A world of connections。大家自己去网上搜搜吧,反正我看的是Google缓存的PDF版,官网不知何故打不开。里面说了一些最近SNS社区网站发展的情况,有意思的一些部分包括Pro ting from friendship、A peach of an opportunity等等。Facebook等或许是信息时代最先实践着社会网络模型的代表,它很大程度上在从商业灵敏嗅觉的角度挖掘着、探究着社会网络的价值。感觉很快,各个学科都会给予进入这个领域来做一些研究,信息安全的需要研究新的加密和隐私对策,做硬件的或许需要定制一些新的架构。Twitter上现在的信息冗余已经略有泛滥的程度,所以是不是信息的筛选、甄别和评价机制也需要有相应的对策。有句很经典的话,“发明是为懒汉服务的”。从商业价值层面,这样的挖掘会有收益上的激励。而从经济学层面,是不是有着更多的探讨空间,来研究人类的行为?如果经济学的定位之一依旧是“研究人类行为的科学”。

或许每朵花恰可以代表一个人

我依旧秉承着这么一个观点,互联网是研究经济行为最好的实际中存在的模型和近似。因为信息的传递,对经济行为来说,实在是太重要了。