Categories
读书有感

社会学角度的爱情与婚姻

最近读书和获取的知识很杂,大概是本科以来最广泛地涉猎一些自己不甚熟悉的领域。社会学除了跟经济学联系的那一块儿,我其实并不是特别熟悉。最近试图学习一下一个新的分析角度,就开始看了一些简单的社会学的东西。

比较有意思的是社会学对于爱情和婚姻的分析角度。很多人说到爱情,第一反应就是心理学,因为是人和人之间的互动。而从经济学的角度,非常冷冰冰的,爱情不重要,婚姻就是一个合同契约,写明了利益共同体和风险分担。社会学在这个话题之上居于两者之中,而某种程度上更像组织学——从人类本身是社会性动物这一角度,来看待为何爱情和婚姻会发生,为何以这种组织形式出现。

我并没有系统性地去学习社会学对于两性关系的分析。零零散散地看了一些论文和讲座(主要是复旦大学沈奕斐老师的)。学而不思则罔,有些共鸣之处,做一些简单的笔记。

首先有个角度很有意思。爱情和婚姻是社会文化的体现。比如以前流行的琼瑶小说,大家要看的就是门不当户不对的逆袭,爱情作为一种挣破传统枷锁的力量。以当今的眼光去看,很多剧情和三观设定不免过时,然而却反映了当时人们对于爱情的期望。随着社会经济的快速发展,尤其是女性在社会分工中的改变(比如女性大规模地读书、工作),很多既有的爱情和婚姻的设定已经不再适用,而文化却有着自己的滞后性。这可以从代际之间的观念差别看出,亦可以预期,我们与我们的后代之间也会有很大的不同。更有趣的是,这种社会经济对于个体角色的影响,在性别之间体现了极大的差别。男性相对来讲,受到的冲击小一些,可能只是以前通过体力现在更多通过脑力来劳动。女性则在受益于经济独立的同时,对于爱情和婚姻产生了不一样的需求。比如,我们现在很少听到依靠爱情来打破故有约束,某种程度上社会已经变得更为自由。比如,我们不会再去羡慕梁山伯与祝英台,因为女性完全可以接受全面的学校教育,和梁山伯自由恋爱。我们不需要借助爱情的独特力量,就可以达成自己想要的很多东西。从这个角度来讲,爱情曾经是推动社会进步的力量,而在一个越来越开放和包容的社会,爱情的“放大”效果是在逐渐消亡的。在这种情况下,爱情回归本质,成为两个人开始相互熟悉和交往的促进剂,成为了婚姻的第一步阶梯。社会学在这个议题上有很多研究,从流行文化到经济基础,两性之间的进步和差别一清二楚。

从爱情到婚姻并不容易。我们某种程度上,希望爱情不要物质化。越是跟物质无关,爱情仿佛就越纯洁越高尚。但是当我们面对着日益攀升的房价,当劳动收入已经不足以改变大部分人的阶级的时候,可以恋爱却不可能结婚就成为了一个现实。我觉得“热恋冷婚”这个词特别贴切,它如实地反映了爱情和婚姻对于伴侣需求的不一致。如果一个人只按照对于爱情的需求去谈恋爱,那八成是没法走入婚姻的,因为我们对于婚姻的需求和爱情差的太多了。我们希望谈恋爱的时候那个人天天陪着,而结婚之后如果对方不出去上班赚钱还经常控制你的人身自由,这婚姻怕是要崩的。同样的特质,在爱情和婚姻中呈现出来的竟是不一致的价值判断。从这个角度看,能从爱情走到婚姻的,在磨合过程中没有崩塌的,一般都是相对来讲差别没有那么大的。激情、亲密和忠诚,一步一步的推进,考验的是不同层面的特质和匹配。这也是社会学分析很厉害的一个地方,把抽象的爱情和婚姻关系拆解开来,寻找最本质的需求匹配。

如果走入婚姻,那么婚姻的稳定又靠的是什么呢?很多人觉得婚姻是一个稳定的支点——所以我们希望对方尽可能的不要变化,自己也不要变化,然后就可以在一个地方白头偕老。这自然是最好预期的。其实这里我觉得有一点很危险。人越是期望在这个变化中的世界找到一个不动点,那么一旦出于各种原因这个不动点变化了,那么整个世界是不是就要坍塌了?比如,一个不可控力夺去了我们的伴侣,难道我们就真的只能寻死了吗?按照小说里面描述的,是的,殉情就是这么来的。

事实是,可是人不可能不变化,所以我们退而求其次,希望大家变化的方向是一致的,这样还是可以白头偕老。如果变化的方向不一致,那么婚姻就可能需要一些别的条件来约束或者支撑,比如物质,比如经济,比如家族,比如法律,等等。甚至,虚无的“缘分”(例如基于生辰八字的配对),也是可以支撑下去的基础。抑或,我们干脆接受大家都是在不停变化、未来世界不可预料这一事实,然后两个人达成共识,所需要的是一个无论世界和个体怎么变化都会存在的东西,比如快乐,比如精神共鸣(包括好玩)。年轻的时候,可能牵着手去看星星就足够快乐了。年龄稍长,可能两个人有了自己的家会很快乐。快乐并不是一个单一定义出来的东西,而随着时间和环境的改变,快乐却可以是一直存在的。

对于个体来讲,为什么还需要爱情和婚姻呢?尤其是在很多婚姻的原有功能都可以被其他社会性服务替代的时候。我觉得有一个角度很好玩,就是亲密关系教给了我们如何跟更不一样的人相处。我们最舒服的可能就是原生家庭的相处模式,因为各种观念相对磨合。一旦遇到另外一个人,他们有着不同的原生家庭和生活观念,那么这里面的冲突就变得很有意思。我们一开始都是逃避的,因为这样子的冲突会让我们觉得不舒服。然而随着一步步的前行,亲密关系教会我们去如何接受不一样的其他人,建立同理心,从尊重到适应,这其实是人作为一个社会性动物需要学习的最重要的一课之一。一般朋友其实很难教会我们这一点,因为大家多少还是相敬如宾的。比如我特别不喜欢别人讲脏话,可能朋友讲讲我也就忍了,毕竟不是天天听。如果是自己的伴侣,有这么突兀的缺点,我可能早就炸了。亲密关系才是我们真正要踏出超越友情的界限,去学习如何在一个新的关系中,取得共赢。当然,共赢不是没有成本的,往往这个成本还很巨大,因为我们要学会放弃很多,才能去接纳新的东西。放弃其实是很痛苦的。

从这个角度来讲,爱情和婚姻都是我们为了实现一个新的、与过去不同的目标,而不得不磨练和放弃的现有状态的过程。那这里面最重要的问题就是,我们是否有足够的动力,而动力的强大与否一般取决于自己是不是知道目标,换言之,知不知道自己想要的是什么。在上学的时候,大家的目标很单一,我们就是要考上大学,而考大学就看分数,所以分数就成为了唯一的阶段性目标。动力有了,我们就可以放弃很多其他的,比如颜值(省下化妆和健身的时间来学习),比如美食(与其花几个小时做饭,不如随便点个外卖),诸如此类。亲密关系中,我们一般也在寻求一样其他途径无法得到的,或者成本极其高昂的。比如,孩子,现代医学技术可以试管婴儿,而一系列的从育婴到教育一条龙服务,足可以取代伴侣在育儿过程中的很多角色。可是这里面的经济成本甚至个人的时间成本是非常高昂的,毕竟要去通过其他手段来弥补伴侣的角色缺失。比如精神共鸣,我们可以聚三五好友,引吭高歌,然而这很难时时发生。伴侣的存在,有时候扮演的是一个常在身边挚交好友的角色,来抚慰我们心中的那一丝需求。我们看到每一对夫妻可能都是不同的,原因就是他们可能从婚姻关系中寻求的是不同的东西,对他们来讲,通过其他渠道和手段难以获得的东西,从而达成一种稳定的结合状态。

这世上有谁真的是完全不可取代吗?其实很难了。只是取代的成本可能异常高昂,或者需要极高的代价去搜寻。信息技术的发展已经帮我们降低了很多搜寻成本了,即便于此,我们还是有太多的特质是难以轻易观察到的,更何况随着时间的变化,我们对于伴侣的需求其实也是在变化的。这个问题上,很可能,并没有人可以得到最优解。就像一个线性规划,最后一般就是落在某个交点上,毕竟各种约束太多了。到这里,好像更多的就是经济学的一些观念了,毕竟有个笑话嘛,一个问题一旦可以重写为最优化问题,经济学家就知道如何求解了。聊以自嘲。

好了,啰嗦了这么多,只是我试图去理解爱情和婚姻存在的一些基础,无论是生理的、心理的,还是社会的、经济的。这并不能告诉我如何找到另一半,也甚至回答不了一个问题,我需不需要另一半,毕竟我天性是喜欢不确定性的。每个人还是要去亲自尝试,或对或错,然后做一个自己可以接受的选择。有些人相对幸运,很快就找到合适的了。或许我在这方面运气欠佳,但也不愿盲从就是了。

Categories
互联网产业观察 经济、IT观察与思考

那些埋伏在互联网公司的经济学家....

嗯啊,自从著名的微观经济学家Varian跑到google兼职之后(话说Varian这厮最著名的八卦,就是自己在买新彩电之前,各种搜集数据建立模型,然后经过各种最优化选择了最佳时点入手...不就是买个电视嘛,至于这么学以致用嘛~),经济学帝国主义展露出其雄心勃勃的志向——无底线的渗透到各个行业各个环节。有的披着数量分析的外衣,有的带着策略决策的高帽,总之就是各种高端各种名正言顺。然后看看他们发出的paper嘛,什么呀,还是economists这群人自己的逻辑规则。哎呀呀~

最近看AEA系列的文章,发现了两位埋伏在互联网公司的大神,Justin M.RaoDavid H. Reiley,貌似原来都在Yahoo!后来一个跑到了google一个投奔了Microsoft。然后这俩人还到处在econ期刊上面灌水,嗯嗯,小小谴责一下~你们又不评tenure神马的,干嘛总抢有限的publication资源啊(好吧其实这俩明明是过着我羡慕而暂时不可得的生活...)。

本来先看到的是这俩人发在JEP上的,关于垃圾邮件的:

Rao, Justin M., and David H. Reiley. 2012. "The Economics of Spam." Journal of Economic Perspectives, 26(3): 87–110.

然后顺藤摸下去,找到了俩人的网站(作为具有geek气质的经济学家,这俩人果然都有独立网站~),然后就看到了更多的papers:

The Good News-Bad News Effect: Asymmetric Processing of Objective Information about Yourself (local copy) (joint with David Eil AEJ Microeconomics July 2011

Here, There and Everywhere: Correlated Online Behaviors Can Lead to Overestimates of the Effects of Advertising (local copy)  (joint with Randall Lewis and David Reiley). Proceedings of World Wide Web Conference 2011 Research Papers

嗯嗯,这两篇看起来也很有意思(对他们研究NBA的那些文章表示~米有兴趣)。这三篇中,最符合我现在的迫切需求的就是最后一篇——在线行为中的相关性与互联网广告效果评估。米办法,现在整天对着各种评估,各种错综复杂让人经常抓狂。还是看看文章舒服一点。

现在开始说一下最后这篇文章。记得刚刚到eBay的时候,就有被问到,“怎么从correlation到casuality?”。当然,呃,计量注重的因果推断只是狭隘的统计意义上的因果,不过还是比correlation有着实质进步的。因果推断的方法,嗯,很多,只要解决了内生性问题,什么都好说。那么,好吧,最simple and elegant的就是随机分组实验了,因为是随机,所以分组变量一定是外生的,所以估计了一定是一致的。然后就是根植IV理念的一系列方法,然后就是对付无法观测变量的panel data方法...时序我实在是不了解,所以这里就不知道了(最悲哀的是为什么总被问到时序的问题啊,个体的数据是多么好的面板分析base啊,为什么一定要损失信息弄成一些时序指标呢?)。

回到文章。一开始作者就提到了互联网广告效果评估的一个经典“相关行为偏差”案例:

案例1: 用户行为的相关性与估计偏差

Yahoo!在首页上为某大厂商展示了其品牌广告,之后评估由其带来的相关的关于该品牌的搜索行为。没有对照组的时候,他们使用用户在campaign开始前一个星期的各种浏览行为作为控制变量,然后发现campaign带来的提升效果约在871%到1198%之间,可谓 too good to believe。

然后大家就有疑虑了,作为一个经常访问Yahoo!的用户,自然相比于那些不怎么常来的人有更高的概率看到该广告(在线广告一般定义exposure,即被展现即作为treatment),而且他们作为资深用户更有可能去搜索一些关键词。这样,就出现了这两个变量的高度正相关——搜索却不是在线广告直接引起的,而是用户本身特性决定的。然后大家就会说了,那么干脆把campaign开始前用户的搜索行为也作为一个控制变量好了。但是这个东西实在是不稳定,每天之间波动实在是太大。

简单总结一下,就是被展现过广告的用户for sure会比那些没有展现的用户更活跃,所以本身就是一个selected sample,也没有很好的控制变量可以完全的消除这里的选择性样本问题。而在采用了随机对照试验之后,最终的估计量是5.4%,也就是说实际上直接由广告带来的相关搜索只有5.4%的提升量。

然后就有人说,哦,都是同一站点的行为嘛,自然可能相关性比较强。那么不同站点之间的行为,是不是行为之间的相关性就会比较弱一些呢?然后就不会这样干扰结果了?于是,作者进行了第二个实验。

案例2:网站之间交叉行为相关性

Yahoo!在Amazon上放了一段30秒的视频广告,以推销Yahoo的一项服务。然后他们发现,在接下来的一周之内,这些看到该广告用户的中,使用Yahoo!这项服务的用户大概提升到以前的3倍!可见这个广告是非常之有效啊!

然而有意思的是,在同样的时间段之内,另一组用户看到的是是一段政治广告。作为control group,这些用户对于该服务的使用量也差不多增加了2倍——也就是说,可能是其他的一些campaign或者用户的自然增长导致了活跃用户的增加,而不是直接的源于这段视频广告。对比之后,该广告的效果只能用“微乎其微”来形容了。

所以,不同网站之间的行为可能是高度交叉相关的,不能简单的忽略这种行为相关的可能性去采用一些简单的观测评估。否则,往往估计效果会大大的偏离实际。

案例3:广告会造福竞争对手?

一个在线服务商在Yahoo!上展示了2亿次广告,但是很可惜,Yahoo!无法追踪到该广告为服务商直接带来的用户转化量。不过“幸运”的是,在这段时间,他们追踪到了该服务商的一个竞争对手的新用户注册量。于是,“不幸”的结果发生了——看到广告的当天,用户更可能去注册竞争对手的网站用户。莫非,这段广告不仅仅让投放者收益,而且也造福了竞争对手?(比如促进了消费者对于一项新服务的认知度,我们习惯称之为正面的“溢出效应”)

还好,当时Yahoo!也设置了对照组,发现其实对照组的用户在这段时间之内也有很多人去竞争对手网站注册。所以其实这种溢出效应基本为零,不用担心啦~竞争对手用户数上升可能是与此同时其他促销或者广告行为的影响,与这段广告没什么关系的。

嗯,其实这篇paper本身米有什么technical的难度,稍稍学过一点本科计量经济学的应该都能顺利的看懂,不过几个案例还是蛮有说服力的。唯一稍稍遗憾的是,这篇文章的style还是太economist taste了,不是那么的符合业界人士的思维路径...

我想在此基础之上,稍稍多说几句关于“实验设计”的事儿。随机实验很简单的,解决了很多内生性相关性问题,是一个典型的“better data + simple method = better results"的例子。同样的,很多时候如果可能,提高数据的质量而不是寻求更复杂的模型,往往是解决问题最省力的办法。这里的数据质量不仅仅是说“除噪”这些基本功,而也包括数据是不是贴近分析目的设计和搜集的。去年写了一系列的“社会网络中的实验”,一直在说一个优雅的实验设计会带来多么优雅的分析。当然很多的时候,一些客观的现实问题导致实验也只能被优化到一个特定的层次。其实一直在想的是,连续的实验该怎么设计

有的时候,因果关系不需要一次次的挖掘,实验也不需要每次都做,毕竟实验都是有成本的。如果能设计出来一系列优雅的实验,那么很多问题就可以一次性的干净利索的回答,不好么?不过既然在这里说到这些,说明日常的工作中还是存在很大改进余地的。嗯,有空间才有成长,挺好的~

p.s. 其他两篇papers也会稍后介绍~嗯嗯。

Categories
互联网产业观察 经济、IT观察与思考

[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。

新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢?

links类数据

微博有两大类links:

  • 粉丝关系
  • 评论与转发关系

然后呢然后呢?

首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。

嗯,这样一个基本的网络模型就构建好了。然后呢?链路预测?等等,我们关注并分析微博数据是为了什么呢?到底构建什么样的指标是合理的呢?

如果你想扩大自己的影响力...

好吧,在下作为一个老字号(落园居然被我坚持写到第6个年头了,这是一种什么精神啊~)blogger,自然可能希望多少扩大一下影响力。落园是落园,blog对我来说有它自己特殊的意义(比如发泄,呃),但是我的新浪微博就沦落为一个落园的notifier了(这个特别的理由就不在这里公开说了,私底下聊)。如是,那么应该怎么办呢?

正常的话,经营一个微博,怎么判断自己是不是越来越受欢迎了呢?显然,简简单单一个“粉丝数”还是不够的,用“转发数”为每个粉丝关系加权也还是不够的,我还得关注一下我的“粉丝”们都是一些什么样的人。比如,他们有几千+的粉丝,还会转发我的东西,那么我的影响力就~哈哈。简单的说,一个衡量指标可以是:我的微博可能会被多少人看到呢?那么,我只要算一下我的粉丝和他们转发的可能性,然后再算他们的粉丝转发他们微博的可能性,以此类推,我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言,这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然,类似的指标还可以构建很多,比如对response进行加权。看具体目的了。我的微博算个特例,因为它有一个特殊性:不转发任何其他微博(机器人自然要符合自己的身份嘛),所以我关注的指标相对单一——我是比较关注“信息能传递到的人”,而不是特别关心他们的response程度(话说最近关评论了,直接刺激大家转发啊,故需要另当别论了)。如果是商业经营一个微博,那么在内容的选择上或许就要更加迎合各自群体的口味,具体的是否可以用Bayesian规则来算算被转发概率呢(不断的update概率)?

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道(沟通成本低嘛),所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家,可以通过找寻自己会员的微博号,来得知他们最近的偏好,然后推荐相应的产品。电商也可以进一步的做一些销售活动,比如我的京东帐号和微博帐号绑定之后,是不是就可以直接留言给京东下单了呢?就像我打个电话似的那么方便。要是他搞什么团购之类的,我也可以直接在微博上买而不是跳转到京东复杂的页面上去,那该多好啊。

对于这样的目的,首要的任务就是找寻自己的用户群,然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外,初期还可以利用社交网络的力量,比如洲际和喜达屋集团都在做一些转发抽奖的活动,让已经关注他们的微博用户来扩散到他们的朋友(所谓物以类聚嘛,自然更有可能也是酒店常客),这样一来就已经实现了用户的识别。然后,怎么引诱这群会员是这些商家的长项,各种美图诱惑之下,让人经常在屋子里面各种坐不住(比如我...)。如果这些用户发一些信息,比如“下周飞北京”,那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户(先发制人啊)……反正至少我认识的玩酒店常客计划的人,都没有只专心的玩一家的。

跟R啥关系?

说了这么多,我们有了一些基本的建模思路。比如希望借助微博扩大影响力,那么最直接的办法:去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格,如果你相信市场是无摩擦的、处于均衡的,自然可以认为价格反映了其影响范围的大小。但是,首先市场就不是一个静态的,难免在动态潮流的波动下偏离均衡;再说怎么可能无摩擦呢,信息不对称总是到处存在的。因此,为了实现现有资金(或其他资源)的集约化投入,往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话,“物以类聚,人以群分”,很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面,如科学松鼠会往往会发布科普类知识,主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之,不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子,我们可以先利用微博的粉丝关系,建立起来一个网络图(更可利用转发情况来建立加权的有向网络)。这在R中可以利用SNA等package完成,或者Gephi之类的更专一的network analysis software。然后在此基础上,分析若干帐户发布的微博关键词(会用到一些text mining技术,其R中的实现可以参见思喆大哥的这篇指导:http://www.bjt.name/2012/03/text-mining-in-r/),然后找到一个或者若干个符合目标群体特征的微博帐户,在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题(think about real analysis...),而加权网络中计算这些并不困难(也可以加入随机的扰动项进行多次模拟得出结果)。最后,自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算,更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题,在R中无论是模拟还是求解都不是难事。最后结论会告知,哪些微博是应该去争取转发的(无论是通过金钱还是内容本身的意义去说服)。

类似的思路,能做的事情还有很多。譬如,哪怕是作为一个个体用户,我只关心某些事情发展的潮流(比如那些会影响股市的情绪),利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源(可能不是全部,或者出于实时性要求无法做到全量检测),即排除噪音,然后这些信息源所提供的信息便有可能给我一些方向上的指导,而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了,背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具,其已经提供的众多packages可以迅速的帮分析人员实现相应的想法,而不是把大量的时间用于无休止的编程以开发相应工具。这样,R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后,很多时候还需要评估效果(这里可以参见去年写的关于社会实验的东西:演讲幻灯片),这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告(简单的分析模型和结果重复可以利用已有的脚本,偏正式的报告可以借助当年的Sweave和进化版如knitr)。

总而言之,我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累,以及一些对于数据的敏锐直觉,而不是编程能力。若有想法便有其他人可以帮忙实现自然好,但是有时候一味的借助他人往往存在着时滞,一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作,只是找到这么一个完美团队的成本实在是太高,更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低,分工模式也会更加的偏向项目执行流程(比如分析->成熟模型->自动化系统),而不是在分析阶段就完全的实现了各展所长(那样对每个成员的要求可能都太高了~)。在效率和效果兼顾的现实情况中,R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然,有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力,而network的数据往往又是一个N*N维的(N为个体数量),更加大了对于空间计算量的需求。这方面,解决思路一方面是把线性的计算分块化、分批跑;对于非线性的计算,更多的则可能是先抽取一个小样本,然后确定一个或几个模型,最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。