Categories
网络新发现

协作关系与复杂网络

今天很兴奋的看到一篇博文:Mapping GitHub – a network of collaborative coders。而后又很兴致勃勃的去源链接看了看。这是利用GitHub的多人协作关系制作出来的复杂网络的图,涵盖了Ruby, JavaScript, Python, Perl, PHP等等语言。实在是太帅了!用GitHub也有一段日子了,总觉得挺孤单的……看了这个才知道原来开源社区有多么的壮大。本来不应该全转过来的,实在是忍不住了……就破例一次吧。
首先让人印象深刻的就是这张社区关系图。很震撼人心……

可以看出,中国人(至少是在中国的中国人)的贡献蛮少的……

上一张图的局部细节。
为了节省首页篇幅,请点入文章查看。

Categories
读书有感

十遍难始

很多学数学的给我说过一些好玩的“俗语”,譬如“随机过程随机过”“量子力学量力学”,不过我印象最深的还算“实变函数学十遍”。实变这个东西貌似自从大三刚开学的某一天我向一个数学院的问起来"real analysis"是什么的那一刻起,就深深的、深深的印在我的脑海里。一直拖着,错过了一些时机,只能先修了泛函分析,再去回头修实变。本来实变和泛函就应该是循序渐进的,哪有我这样本末倒置的。所以泛函学了个一塌糊涂,除了知道一堆定理怎么证明之外别无所获,更想不出那些定理怎么应用了。

这学期本来打谱要去听实变,只是奈何无法选课,旁听缺乏动力。再则此课是早晨上,早起对我来说颇有难度,所以不知不觉的逃了两次。自知这样也不是个事儿,所以灰溜溜的去买了一本《实变函数论》,北大周民强版的,传说中很经典。不过毕竟不是学数学出身的,而且数学这东西绝不是一日两日可以凑活出来的,所以读起来也颇为费事,便多多少少缺乏动力。长此以往,嘴里念叨着“实变函数学十遍”,却也连第一遍打开书的勇气都没有。

昨天去学校,买完了实变函数的书就顺便去图书馆溜达了一圈,然后顺手又牵出两本书来。一本是《大分流 (The Big Divergence)》,是彭慕兰那本经典之作,只不过我比较偷懒借了一本翻译过来的。网上对此翻译版评价不高,不过我看了一章倒也没觉得有什么特别奇怪的地方,只不过稍显平淡。听说这本书,貌似还是上学期闯入某个讲座灰溜溜的窃听而至。不过比较奇怪的是这本书我是在经济类图书区找到的。而我多少觉得这本书还是应该归为历史学那边。唯一得以肯定的就是这本书实在是人迹罕至,非常之新,大约是经济类的学生懒的去读这么厚的一本约莫只能和经济史扯上关系的书。其实说实话,想看经济史的话有很多通论导论性质的书,大概读之的效率会远远高于此书。

另一本书则有些俗,叫做《大衰退》,一看出版社是中信出版社大约就知道是什么类型的了。虽说是弗里德曼写的,但我也不报多高的期望,随便读读就是了。

床头的书越摞越多,本来只是抱着一种“经典著作不得不读”的心态,把它们搬回来欲细细看,但真的看起来却也是颇费时日。《国富论》以龟速前进着,读起来远不如上个月读《凯恩斯传》那般流畅。话说百年前严复就已经把该书译作《原富》引入华夏大地,而至现在,却也不觉得过时。可见斯密谓之经济学之父,却也不枉此名。《大分流》读起来稍快一些,却也有些囫囵吞枣。很多东西看的晕晕乎乎的,不似一般学术文章那般充满公式数据,但其中的例证却也总是在拿数据说事儿。看了一阵子,对那些数据也没有什么特别的感触,什么“预期寿命”“纺织”之类的,没有啥直观的感觉。可能一则是对历史学的研究方法本就不熟悉,因此也不知道此书创新在何处;二则对宏观经济增长的概念也只是模模糊糊,没有啥敏锐的感觉。所以此书读起来倒是有点肃然无味。

把毕业论文题目大致定下了,自己却根本不知道怎么下手。原来的时候觉得选导师的第一原则就是“不要被强加兴趣”,现在看来虽然达到了这般的自由却也有点自由过度不知道哪里能够稍稍停留。加之最近很多事颇为不顺,身体状况也随之晃荡起伏,调整心态弄得自己颇有想去隐居不问世事的感觉。算了,还是看看书吧,就算是一种逃离,也比颓废好许多吧。船到桥头自然直。

Categories
读书有感

说说最近读的书吧 [3rd week, March]

在过了两周每天只是等待的日子之后,觉得人生还是不能太过被动和消沉。记得刚开学的时候去图书馆搬回来几本书,放了那么就也该好好读读了。寒假最后还是成功的消灭了《凯恩斯传》,刹那间那叫做成就感啊。这本书对我的影响之大并非一言一语可以表述的清,总欲提笔写一番感受却总也不知道应该从何下笔,也就一直没有写下来。

前几天睡觉前翻了翻《国富论》,猛然间发现自己手里的那本商务印书馆版的居然是王亚南翻译的。读了一些,不禁感觉确实是大师风范。不过或许《国富论》并不适合睡觉前翻翻,一是心情难免有些浮躁,精神也不够振奋;二是容易越看越兴奋以至于彻夜无眠。大一的时候老师就说学经济的学生必看的有《国富论》《通论》以及马歇尔的《经济学原理》。可怜《国富论》我只读过节选,《通论》几乎没有读过,马歇尔那本更是觉得遥远。大三的时候老师又问我们,有谁看过这三本书,刹那间觉得无地自容。已然三年,这些经典著作却也觉得依旧那么遥远。哦,这里我或许漏了一本《资本论》,只是不知道为什么我觉得马克思的东西一定要在对实际世界有了很深的理解和感悟之后才能去读,否则就是隔雾看花,不知道他到底想表述什么。我学的太少,理解不了,也便不想如斯为难自己。系里有几位老师在此方面颇有造诣,只是无缘聆听教诲,或许有些遗憾。只愿亡羊补牢,为时未晚,在大四毕业之前能静下心来读个一章半节的,或许也好。

前几天写了好多关于社会网络分析的东西,中文的英文的都有,毕业论文也大致拟定在这个范围内。只是一时间感觉理解尚有差距,不知道怎么和以往学习的经济学知识良好的沟通起来,所以只感觉一片迷茫,不知道论文从何下手、如何选题切入。从网上搜了搜,国内的相关著作甚少,社会学方面的也不多,仅存几本可以作为基础了解的书。只从图书馆找到了一本《社会网络分析法》,立刻跑到遥远的却也风景如画的老校区借了出来。其实曾经在老校区那边住了十余年,只是那时尚未进入大学校门,小时候只知道去操场玩耍而已。后来上了大学,家也搬了,离老校区就很远了,去的次数也少了。其实,老校区有哲社学院、法学院、政管学院等很多人文学科的院系,所以老校区图书馆里面珍藏的人文巨著很多。只可惜,临近大学毕业才深深的体悟到自己人文科学知识的欠缺,欲所有弥补,却也不能急在一时,只有就近下手。说起来,那日在老校,坐在哥特式教堂后面路边的石阶上,绿茵茵的草坪将冬日的阴霾一扫而空。随手翻起刚借出来的书,调皮的春风着急的翻页,使得我顾不上吹散的发丝,狼狈的按住书页。而在那时那刻,却似乎第一次觉得自己是在读大学。这种自由的吸取知识的味道,在这四年中被考试压迫的罕有。突然间似乎多多少少明白钱学森对中国大学的那种批评,不只是表面态度那么简单。

这本《社会网络分析法》写的很简单,毕竟是导论性质的,又是从事社会学研究的人士所撰写,省略了很多数学细节,因此颇为易懂。尤其是看惯了经济学书籍里面堆满的公式,此书仅以插图简单说明的表述反而更觉得清晰一些。最有意思的是因为涉及到很多分析软件的使用,会时常提及一些计算机尤其是数据库的东西。看着那些熟悉的架构,一下子想起来自己大一大二的时候自学数据库的那段日子。那个时候却不是觉得未来能有什么用处,只是想随便考个试,应付一下写程序的任务,加之一种自娱自乐的心情罢了。估计打死也想不出在若干年后,居然会帮我轻松的跳过一些关卡,却也是始料未及,唯有偷笑。想到这里,再想想那时所受的那些辛苦和耻笑,却也云淡风轻了。这本书看得很快,因为其中和经济、管理交叉的东西有不少。而我平时比较关注微观的文章,对劳动经济学和管理学习惯关注的那些问题较为熟悉,所以很多东西看到社会学家的分析方法,在熟悉之余时常有拍腿称妙之感。不知不觉,已然读了一半了。或许不够精细,却有助于我去理解社会学家如何看待问题。

还有几本书是从新校图书馆顺手牵来的:一本是《图论导引》,也不知道写的怎么样只是想看看作为了解只用,毕竟上学期运筹学图论学的少了些;还有一本是夏道行的《泛函分析第二教程》,垂涎已久,看到就抢了出来。只是上学期泛函考成那样,无脸见人,这书也多少缺乏一些打开的勇气了。说起来,本来这学期应该好好去听听实变的,因为我现在特别想建立一种“概率是一种测度”的观念。这个概念很早有之,却一直不甚清晰,大概是不够熟悉的缘故。因为此次的社会网络分析中我多少想引入一些不确定性的分析,自然离不开概率。虽然不学实变只看概率上的东西也能做,但是不免觉得缺少了一环逻辑上的思维层次。若是再因为理解不够犯下什么错误,便更是不容饶恕的了。

Categories
事儿关经济 互联网产业观察

复杂网络的几何模型?

有点时候觉得复杂网络之所以可爱,就是在一个特定的场合下或许可以几何化,变得很直观。当然,简单的几何化就是点与点之间的连线,不过那样我倒是觉得稍显纷杂,虽然有方程可以描述,但还是不够简洁。

前几天在校内无聊的看帖子,有个很恶俗的帖子中有句很经典的话,大意是:

想知道你的年收入是多少吗?把你周围的10个好朋友的年收入加起来,然后除以10得到的平均数就大概是你的年收入。

这句话的依据就是“物以类聚,人以群分”,所以你的社交圈往往也离自己的实际生活不会太远。姑且我们不去深挖那些细节上的陷阱,从一种很单纯的层面来看,假设每个人只与10个人有社会网络意义上的联系,而后整个社会(比如有1000人)以这种联系互相连接在一起,且满足每个结点(即每个人)上的数值等于周围结点平均值。那么这个模型会是什么样子呢?

当然这可能是个三维空间都承载不下的几何模型,我的第一反应是“球”。简而言之,这个“球”得是一个匀质的球。球有什么好的特性呢?下面细说。

不知道大家有没有一个比较奇怪的“习惯性动作”,反正我是经常会这样,那就是在看电视的时候没事干就折腾遥控器玩。我折腾遥控器的一大习惯就是在遥控器的所有键上找到一个键,可以用手指单点这个键的时候足以支撑整个遥控器的平衡。其实说白了,就是找一个近似的“重心”。

球最好的特性之一就是在球面任何一个点栓一根绳,然后垂直下落,那么通过该点的垂线一定通过球心。如果我们此时把球分层面来看,那该点也一定是这个层面上的“重心”。不知我这样的说法是不是有些难以理解,简而言之就是你用手指顶起球面上任意一个点,都可以举起球来,就像篮球运动员转球似的。这样的平衡,是不是可以视之为一个“不动点”?

在社会网络这个模型中,或许很难去定义一个“重力”或言之“外部物体的引力”,可能只有内部各个节点之间的“万有引力”。这样一来,是不是在某种意义下各个结点都可视为一个特定层面的“重心”,从而满足了“该点值等于周围结点的平均值”?当然这里对于每个点的赋值或许要稍稍复杂些,甚至不一定是静态赋值(即可能是某个其他值的函数),因为我们在转球的时候就重新切割了层面,所以原来的坐标轴实质上已经改变了。

当然,我喜欢球的另外一个因素,就是很容易从中分离出其他的简单模型,比如“正四面体”。正四面体的每个顶点都满足到其他三个点的距离相等,而且也可以视作重心在各个层面上的“投影”。这样一来,从逼近的角度,我感觉最后还是会成为一个近似的“球体”。

这样绕来绕去或许有些繁琐了,也离我们起初的议题有些远了。可惜我一时想不出来什么办法来检验一下上面那个“收入平均值”的命题,若是能有如此的数据或许真的可以建立起来一个比较好玩的社会网络模型,然后看看它到底长得什么样子。大家喜欢社会网络模型可能的原因是它可以很容易的嵌套入各个细微的领域,是研究从个人行为到群体行为聚集的一种模拟。或许这样一来,经济学和心理学关心的很多议题,比如储蓄行为、利他行为都可以找到一种新的解释。

最后推荐一篇报道吧,可能有点稍显陈旧,是Economist杂志一月底的一篇特别报道:A world of connections。大家自己去网上搜搜吧,反正我看的是Google缓存的PDF版,官网不知何故打不开。里面说了一些最近SNS社区网站发展的情况,有意思的一些部分包括Pro ting from friendship、A peach of an opportunity等等。Facebook等或许是信息时代最先实践着社会网络模型的代表,它很大程度上在从商业灵敏嗅觉的角度挖掘着、探究着社会网络的价值。感觉很快,各个学科都会给予进入这个领域来做一些研究,信息安全的需要研究新的加密和隐私对策,做硬件的或许需要定制一些新的架构。Twitter上现在的信息冗余已经略有泛滥的程度,所以是不是信息的筛选、甄别和评价机制也需要有相应的对策。有句很经典的话,“发明是为懒汉服务的”。从商业价值层面,这样的挖掘会有收益上的激励。而从经济学层面,是不是有着更多的探讨空间,来研究人类的行为?如果经济学的定位之一依旧是“研究人类行为的科学”。

或许每朵花恰可以代表一个人

我依旧秉承着这么一个观点,互联网是研究经济行为最好的实际中存在的模型和近似。因为信息的传递,对经济行为来说,实在是太重要了。

Categories
事儿关经济 经济、IT观察与思考

复杂网络和社会网络

在正式的写昨天列下的三个议题之前,我想先说一点关于复杂网络(complex network)和社会网络(social network)的东西。

第一次从学术意义上接触这两个词儿还是不久之前,也就是去年冬天的R会议上。已经记不得是谁的presentation里面有一幅很经典的复杂网络的图了(当时学到的东西太多了,很难一一拎清楚来源了。欢迎各位知情人士把图扒翻出来给我),而后大家的话题也多多少少牵扯到复杂网络。

先澄清一下这两个概念之间的区别:从我的理解来说,复杂网络更多的是一种数学工具,一种分析问题的方法。而社会网络则是一种概念和定义上的东西,是社会学研究的对象。现在社会学研究社会网络的时候会经常用到复杂网络的工具,这也是二者的结合点。简而言之,复杂网络>社会网络。

或许社会网络中最著名的就是“六度分割理论”:

美国著名社会心理学家米尔格伦(Stanley Milgram)于20世纪60年代最先提出。“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生 人。”

还有一个著名的“150法则”:

从欧洲发源的“赫特兄弟会”是一个自给自足的农民自发组织,这些组织在维持民风上发挥了重要作用。有趣的是,他 们有一个不成文的严格规定:每当聚居人数超过150人的规模,他们就把它变成两个,再各自发展。“把 人群控制在150人以下似乎是管理人群的一个最佳和最有效的方式。”——150成为我们普遍公认的“我们可以与之保持社交关系的人数的最大值”。

我第一次对复杂网络有个感性的认识大概是大一的时候,当时雅虎中国出来一个很有趣儿的名人搜索(当然现在很多网站都有了),然后我就泡在上面折腾了个把小时。

复杂网络从数学的角度看自然离不开“图与网络分析”(插曲:我觉得运筹学是我学的最得心应手的数学课,几乎不用证明多好啊,直观的很容易理解,算法上的东西比定义上的容易搞定得多)。不过这里我们撇开数学不谈,看看复杂网络的应用(原文在此):

研究所涉及的网络主要有:生命科学领域的各种网络(如细胞网络、蛋白质-蛋白质作用网络、蛋白质折叠网络、神经网络、生态网络)、 Internet/WWW网络、社会网络,包括流行性疾病的传播网络、科学家合作网络、人类性关系网络、语言学网络,等等;所使用的主要方法是数学上的图论、物理学中的统计物理学方法和社会网络分析方法。

钱学森给出了复杂网络的一个较严格的定义:具有自组织自相似吸引子网络的内聚倾向)、小世界相互关系的数目可以很小但却能够连接世界的事实)、无标度中部分或全部性质的网络称为复杂网络。

看来看去,社会网络无疑是复杂网络应用中最好观测、最易直观理解的例子。

之所以提起来这个话题,主要是前几天无聊的时候翻了翻去年10月的一期《大众软件》,虽然其中《复杂网络——网络的科学》一文更多的是一种科普的角度来阐述复杂网络的概念,但是也并非没有分析上的启迪意义。复杂网络或许从数学工具的角度已经有比较成熟的框架和脉络,但是真正应用到社会学中,又是另外一番天地。经济学的研究现在特别讨厌弄个假设然后找个数学家来解题,毕竟我们研究的是人类的行为。

记得R会议之后Mr Liu曾发给我一篇沃顿商学院俩教授写的论文,原文载于Marketing Science,标题为New product diffusion with influences and imitators(谢谢tryshy订正)。可能从商业的角度看这篇文章有着自己的市场营销层面的价值,但是我感兴趣的则是里面利用的社会网络的分析方法。当时我是出于我理解中的微观经济学缺少一些人类行为层面的分析(我总觉得贝克尔在《人类行为的经济分析》里面只是分析了经济因素而非把行为本身作为一个决定模型的因素),也想多了解一些behavior economics方面的东西。从某种程度上来说,群体的行为必然是个人行为的加总,只是这个不能简简单单的是一个线性加法,而有着更多的决定因素和嵌套关系。

对于群体行为,心理学和社会学了解的要比经济学通透的多,他们的精华成果也颇为值得借鉴。我欲借复杂网络构建模型,却奈何对其理解不足,怕造成灾难性的错误,只得搁置。故而对于群体行为,即将撰写的博文中只会涉及正态分布和布朗运动,暂时放下复杂网络。或许有朝一日,对复杂网络的理解通透了之后,可以在两者之间构建一个桥梁,或许能看到一番新的景象。