Categories
读书有感

最近几篇社交网络分析 (SNS)

最近关注了一下SNS这边的研究,主要是Linkedin, Quota 和 Facebook。

先贴一下链接:

简单提纲挈领一下这三篇都是干啥的。

  • linkedin那篇主要是说在一个社交网络中,设计一个随机实验是比较困难的,主要是有"溢出效应(spill-over effect)"或者其他network effect,所以就不满足独立同分布的a/b test 假设了。比如,linkedin改变了一个人首页的feed,然后他评论或者转发了一下,他的朋友(control)组里面的也就可能看到;或者说linkedin给一些用户首页展现"endorsement",那这个显然是有溢出效应的(甲 endorse 乙,乙也很有可能反过来endorse 甲)。所以他们做的主要是三件事:分析简单纯随机a/b test的不足、建立数学模型并数值模拟基于已知网络结构的网络效应、采用聚类(clustering or particition)的办法随机实验各个小群体。
  • facebook那篇跟容易让人想起来他们以前那次在大选之前拿用户feed做实验。我总感觉facebook有一群潜伏的政治学研究者...这次这篇发在《科学》上的倒是没有做实验,只是分析了一下朋友们之间的政治观点异同。此外,他们还画了一下不同政治观点(保守、中立、自由)群体的网络样子。
  • quota那篇相对来讲就稍微没那么成熟。我跑到那个meetup去了所以大概说一下idea。quora关注的是如何让用户找到感性的问题、以及如何找到最合适的人来回答。所以他们很关心一个问题能在network里面传递多远、多久。他们有一些social channels、比如你关注的人的动态、你关注的话题的动态之类的;还有一些非social的channel,比如google,比如摘要邮件。所以他们就来分析,是不是follower越多的人的回答越容易得到更多的upvote(类似于点赞)呢?答案是肯定的,但是随着时间的衰减social channel的作用越来越弱,最终收敛到60%还是多少来着。其他的分析也大致跟此相关,描述性分析为主。

总结:sns现在做的越来越细致、更注重于问题本身而不是炫技。大致的问题主要有:信息是怎么在社交网络传递的?不同群体之间的差别与联系?人们是怎么被网络中的变化所影响的?这种影响如何量化?如果要做实验,怎么控制溢出效应?如果要做模拟,怎么有效的利用各种信息和已知的网络结构?

一点点在推进科学的进步的感觉?

Categories
网站建设

新网站上线,全面启用HTML5

这两天手痒痒,就把个人网站(cloudlychen.net)改版了...原来那个实在是太朴素了,完全没有HTML5和CSS3的感觉...

这次走黑色系,主要是因为网络图还是在一片暗黑的宇宙中比较闪耀。

先上效果图:

2013-12-09 00_22_06-Liyun Chen's Website

然后简单记录一下这次的变动。

  • 其实这是v2了,V1在Photoshop里面效果图出来之后,就被我kill掉了...这次主要想营造的是星空的感觉,然后加上network的feature,突出在茫茫星海中遨游(explore)这样子。
  • 大的框架是从某个摄影师网站抄的,runemolnes.com。不过被我kill掉了很多很炫的效果。实在是没那么多东西可以填呀。
  • 然后最上面的banner实际上是可以“调戏”的网络图,这个是底层是HTML的canvas效果,每次刷新都会随机生成,可以鼠标调戏之~技术层面是sigma.js. 基本就是把他家的banner抄过来了,很强大的网络图HTML5可视化框架,可以加interactive效果什么的!
  • 中间是精选了一些以前的照片,目前是博物馆系(开场图是一张很朴素的chihuly museum的墙图,主要是想要这样的风格,虽然那些更炫的照片只能压箱底了...)。底层的是COIN SLIDER. 这个本来想效仿flickr的翻页,结果看了一下源码比较难抄(话说顺便看到他们的小广告——we are hiring),所以另外找了一个基于jQuery的框架。还比较契合整体页面的黑色风格。
  • 其他的就没什么特殊的了...那个logo是我很无奈的从网上随便拎了一个...填空而已。
  • 移动端访问效果未知....非FF和Chrome访问效果未知...欢迎报告bug。
  • Css3已经强大到渐变线这种都不需要在PS里面画好另存为图片了...直接几行代码搞定,大爽!

吐槽时间:真的是太久不做前端了,完全赶不上潮流了。写个JS真的是绞尽脑汁才搞定...PS也是越来越不熟了,还好一开始想要的设计感还是多少保留了。后端能写死的都写死了,才不去调用PHP或者其他API来增加风险...

还好有那么开源的框架可以用,终于磨磨悠悠的搞定了。说明我做网页的基本功力还是在的,哈哈。

Categories
事儿关经济 互联网产业观察

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference?

当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。

这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。

对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个辩护就是,关注的问题太不同了!data mining很多时候关注的是针对每个个体选择适当的信息传递,而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上,针对这一点我现在越来越认同某个计量学家对于consistency的评价了:

(大意)我喜欢计量经济学,正是因为他对于政策制定的强力支撑。

况且,还有quantile regression可以做一个完整的系数分布估计呢!加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨

要会技术(统计、机器学习、可视化、最优化),要懂市场(营销,产品,客户行为,渠道),要懂沟通(同事协同,上级汇报,对外呈现),工具要熟练(SQL、Excel、SAS、ppt),公司战略还要懂点,没准还要带团队,要懂管理……。OMG,我在说什么,不是MBA,是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛(题外话,我等consultant活得也格外艰辛啊,这些加上无穷无尽的出差 -_-|| ),而我后面跟的一句是“市场发展不成熟,分工不明确,相关领域人才太少的恶果”。没办法,只做模型和分析远远不够啊,太少人可以看懂并完美应用了,所以搞分析的不得不自己卷起袖子上阵,即当爹又当妈……

那么说到底,为什么现在big data这么火?为什么 quantitative analysts 对数据源这么 obsessing 呢?我的理解是,

1. 大数据可以很容易的aggregate到适当的level,从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通(既实话又废话)。
2. 大数据使得很多大样本的性质可以直接应用,需要依赖的模型假设大大放松,从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining(又废话了),从而不仅仅服务于单一的policy making,还可以实现定点、极端个性化的信息投递。说白了,就是既可以分析群体特性,又可以兼顾个人特质,像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据,格式整齐(要不搜集成本过高也没法搜集)、数据真实、定义明确,很容易进行data cleaning(一个反例:跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱,统计口径什么的千差万别,数据来源也未必可信)。这样的数据只要简单的编程处理就可以了,把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息,比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用(idea -> result -> implementation)。关于这一点,Frank曾经发给我一个很好的summary,说的是大数据为发展(经济学)带来的新机遇:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的,social network的数据往往都是大数据(得有links嘛),所以既然我的研究兴趣在那里,自然会更多的关注大数据。

那么,大数据的对于分析人员挑战在哪里呢?
1. 从噪音中找到有用的信息: 正如前面所说,大数据包含了太多个体的信息,所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息,对于统计分析专家的思路清晰要求度非常之高(Frank兄曾经对此做过一些简单的批判,业界的一些报告有时候无奈的直接把数据aggregate了,丢失了部分有用信息)。而我总觉得,对数据背景一定要有所了解才可以,不能是简单的大海捞针,还是要有直觉指引方向的。(只针对业界数据,制药行业之类的实验数据我没接触过,没有感觉~)
2. 大数据对于建模者的学术训练背景要求更高: econometrics, data mining等等统计分析方法,及其结合,往往意味着分析者需要有着良好的数据直觉。而这一切,往往离不开一个solid的学术训练背景。最简单的,如果不会C或者python之类的编程,不会R之类的统计软件,那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集,我知道很多人就是excel手动做数据清理,然后扔到stata之类的软件中调用相关的命令(或者可以称之为函数)就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私: 大数据往往来源于个体,这也就意味着data access往往被控制的很严,不可能向所有研究者开放。那么,研究者往往只能接触一个领域、一个公司的数据,而无法是非常全面的行业数据(比如,通信数据你要么有移动的,要么有联通的,不太可能移动联通的同时都给你)。这也多少造成了分析只能从一边入手(依赖双方数据的,比如game theory的实证分析,可能会有些困难)。

暂时先想到这些,或许日后还会补充吧,欢迎各种批判(我只是小小的井底观天而已,加上各种眼高手低、站着说话不腰疼)。其实有的时候,想想自己明明是 more into theories than empiric,但是也就被各种“拉上贼船”下不来了。至少我还是坚信,更难积累的是analytical sense而不是skills,后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说,很多时候还轮不到拼天赋……

(p.s. 发现新版WP的全屏编辑模式很好用啊,很简洁明了令人可以专注写作!)

Categories
事儿关经济

起题目

嗯,其实挺怀念上中学的时候的,因为那个时候的作文大都是“命题作文”,你都不用担心题目怎么起,人家都帮你起好了。有利也有弊,每年看什么“优秀作文选”的时候,千篇一律的都是一样的题目,没啥办法只有耐心的再去看 每篇作文的正文以加以区分。

这样的不良后果就是我开始写东西的时候(甚至于直到现在写博客还有后遗症),总是习惯性的只标上个日期就完了,更多的有日记的味道而不是正儿八经的文章的味道。刚开始写博客的时候,老不习惯了,怎么还得起个标题?而且这事儿还得在开始敲正文之前完成。嗯,纵然我打起字来思如泉涌,但是也总是想不出怎么起题目。于是乎,落园的大大小小长长短短的文章题目大都很无趣,往往是关键字的罗列,以形如“A,B和C”为标准格式……只有偶尔想吸引眼球的时候,才会老老实实的花几分钟去想想怎么把这个博文卖的更好一点,然后就有点市场上泛滥的“7天搞定雅思”“15天背完GRE”的吹嘘味道。

不过有趣的是,我觉得我写论文的时候题目往往很花心思,毕竟论文这东西,大多数人看完题目最多再看个摘要,就扔一边了。所以啊,这东西总是要一方面简明扼要还得有趣,告诉别人你在干什么,太长的没人看;另一方面又要照顾一群被搜索引擎(尤其是google scholar)惯坏的研究者,把该放的关键词都放进去……然后这就往往成为一个痛苦的balance的过程。

起题目的时候,从小就被教育不要起个大题目,要不道理说不透彻反而遭人嗤鼻。后来沿袭而成了一个好或者不好的习惯,找研究题目的时候总喜欢找小题目,越小越好,最好还能特别“聪明”的以小见大,一方面逻辑上容易自圆其说,另一面拓展开来貌似还蛮重要的……不过这多少总是一种理想的概念而已。随之而来不好的地方就是对“大题目”的不自信和不关注,脑子中往往欠缺一副“鸟瞰图”,不知道诸如“经济增长”这样的大问题应该怎么回答。所以,往往涉及到社会福利、公共产品分配的问题上我就立马乖乖熄火闪人了。还有一例则是金融市场,我总觉得这东西太过复杂,不是一两个模型能够解释清楚的,久而久之连学习那一两个基本模型的动力都没有了,然后就直接成为了彻底的无知。

无知有的时候并不见得是件坏事,人的精力总是有限的,人的知识也总是有限的。所以我特别“明哲保身”的选择拥有“无知之明”,多少可以避免对自己并不熟悉的东西乱侃一气,尤其是对自己不熟悉的话题借用某些根深蒂固的经济学路子,以至于往往到最后落得个“有知识无常识”的尴尬境地。不知道就是不知道,至少不用胡乱评述然后还要负责任。

刚刚在写基本的毕业论文框架,算是开始一点点的搭架子了。虽然不是第一次用英文从头开始写东西了,只是我突然意识到原来对于自己熟悉的东西,无论是中文还是英文我都是可以思维哗哗如流水的乱扯一气的。然后几页纸的大架子就有个雏形了。浸泡在social network也有些时日了,虽然没有受过专门的课堂训练,导致多多少少了解的不够全面,但是另一方面也有好处——在其他各个课堂里面都多多少少涉及到了social network,所以很多时候反而更清楚那里是需要social network analysis,避免了只是画蛇添足的繁缀。

搭架子还有一个好处,可以放任自己一次、起一个比较大的题目,嗯。虽然写下的时候还是有点胆战心惊的,但是却也多少有了一点点勇气去触碰一个稍微大一点的话题。每当这时望着旁边的那本红色的“social and economic network”,就又不禁小心翼翼起来。Jackson写那本书可是几十年的积淀啊,我这还不及九牛一毛,到底能入水多深还有待考量。不过,嗯,事在人为啊人为啊,模型不都是人造出来的么?

好吧,罗嗦了怎么多,只是想证实一下中文尚未退化,还是可以舒舒服服的玩文字游戏——这大概也是我特别喜欢写东西的一大原因,在这个玩文字游戏的过程中,那种灵机一现的满足感啊!说真的,那天没饭吃了,不对,是不愁吃穿了,我真去找个“文艺工作者”的活干干。创作是能给人带来极大满足感的,毕竟是新的东西嘛——先不管对别人来说到底有没有价值,满足自己的新鲜感更重要(非常感谢一直耐心的在看我的blog的诸位~)。

Categories
事儿关经济

一篇paper,一门课程

原谅我近几日的pretty busy,顺带原谅我回信的简略……不过今天看到了一篇paper,有点意思,想说说,就又跑到落园来了。

这篇paper是Yuki Kumagai, 2010."Networks and Markets. The dynamic impacts of information, matching and transaction costs on trade," Discussion Papers 2010-07, The Centre for Decision Research and Experimental Economics, School of Economics, University of Nottingham.

其实开始只是看到这篇文章的题目,觉得很有意思。后来下下来一看就乐了,CeDEx的working paper,真巧。记得当初无奈放弃CeDEx的时候,还在给Chris的邮件中写道会一直follow他们的paper,没想到以这种形式follow了,也算无意中的缘分吧。文章大概回答的问题就是,人们为什么更多依赖网络(人际网络)进行贸易往来而不是直接通过市场?文章中一连串的博弈模型,不过没有基于我预想中的social network analysis的approach,而是基本就是重复的多人博弈。呃,略有失望。不过结论指出,

The existing literature has greatly focused on the role of information transmission among traders in achieving eciency of trade. This paper contributes to demonstrate that independent of the monitoring structure matching friction is another factor that brings self-enforcing mutually bene cial transactions over time in the personal-information game.

算是有点新意吧。然后讨论了一下各种贸易的情形下的均衡结果。

有意思的是今天还看到一篇blog,是Jordi的,说的是在UPF听一门social network的课的时候人很少的窘境,可能是UPF做宏观的多而微观的少……呃,嘿嘿,看到这儿的时候可乐坏了我了,要知道像我这种人,最喜欢的就是人少的课,三五人的像讨论课似的最好。呃,咱一向喜欢走小众路线,哈哈。希望不会被狠狠的打击,祈祷中……