Categories
我的生活状态

充实的一周、R会议小报

刚刚结束的一周大概是最近最充实的一周了,几乎每天都在外面跑——去杭州就不用说了,周五更是一天之内横穿了上海两次+,各种高铁地铁磁悬浮、公(交)车私(家)车出租车……真的是为上海的经济发展和碳排放量增加做出了杰出贡献啊!同样的,肯定睡眠不足,终于知道每天都是最终脑子不转了躺在床上立马入睡的感觉,居然被看出来面色憔悴……嗯,我还是喜欢解释为一种挑战极限的充实感。前一周,我被养的太舒服了,果然,这周就必然的加倍还回去。

忙碌的最主要原因就是今天刚刚落下帷幕的第四届中国R语言会议(上海会场)。正如前几日发出来的[cref %e7%ac%ac%e5%9b%9b%e5%b1%8ar%e8%af%ad%e8%a8%80%e4%bc%9a%e8%ae%ae%e4%b8%8a%e6%b5%b7%e4%bc%9a%e5%9c%ba%e9%80%9a%e7%9f%a5%ef%bc%88%e9%99%84%e6%bc%94%e8%ae%b2%e5%88%97%e8%a1%a8%ef%bc%89 上海会场演讲列表],见到了很多朋友,老朋友新朋友,各种兴奋!很多人都是自从09年第二届R会议之后就没有见过了。想念已久啊!

终于也体会到办会议的辛苦,很多细节的事儿都需要考虑到,比如最后还是忘记了很多人要的邀请信……汗,如果谁需要的话给我留个言或者发个email,我们会发扫描件补上、或者快递原件的。这个真的是抱歉了。

学术界的话,谢邦昌老师、超级长的VGAM包的作者Thomas Yee、周涛教授,当然还有汤老师的一如既往的支持,都是让我们特别感动的。此外,赵明和钟春燕带来的在基因富集分析和肿瘤生存预测中的应用也让人印象深刻。

COS自己人就不用废话什么了,一群干将北京杀过来镇场子,金融的数据挖掘的,还有“熹云轩”强大的可视化(这个,云被涛代了,果然有“奸情”啊)。

业界的,自然淘宝和茂源资本的加入让我们格外开心,也要感谢土豆、茂源和芒果的赞助~要不我们不可能把这次会议办的这么红红火火气势昂然的。资深潜水员牟官迅和资深开发者邵凡的报告都让我们一下子站到了数据分析的最前沿。

其他的各种感动就不再一一列举了,我是抽空还打了个酱油折磨了大家耳膜20分钟,罪过啊。slides还是厚脸皮传上来先,很快搜集齐了大家的slides都会一并放在COS主站的。

slides_network_experiments_R

Categories
互联网产业观察

怎能寄希望于不染青莲

我还是没忍住,索性说说对于百度最近被各种攻击的一些看法吧。

前段时间打开电视,习惯性的就调到CCTV 2 去了。我说过了,我还是经常看CCTV的,毕竟上面很多信息还是有用的。在我已然被隔离了一年不知道这些热播的电视剧说的是什么的今日,打开电视调到CCTV或许并不是一个坏选择。

然后很意外的看了很久对于Baidu的批判。虽然稍早的时候在网上看到大家说起这个事儿,但是还是抵不上自己看一遍来的深刻。貌似,前些年的时候也有过类似的报道。怎么,旧闻重提?

实话说,我原来是不用百度的,因为觉得上面的信息太繁杂,一个个辨认起来太麻烦,有的时候还是google更符合我的习惯。这就像开始的时候我是有点不信任淘宝的,因为淘宝上各种劣质品我未能幸免的被忽悠了好几次。但是现在我还是整天上淘宝买东西。为什么呢?因为淘宝商城确实是有很多好东西的,再说现在不是还有一个东西叫做“退货保险”么?怕什么!

说到百度,对我来说和早年的淘宝并无二致。这都是中国的互联网大环境在那里摆着的结果。你能指望一个企业来承担所有的社会责任吗?总是期望企业来“出淤泥而不染、濯清涟而不妖”,这真的公平么?为什么没人去要求工商部门更细致的监管?如果这些甄别信息的成本强加在一个企业身上,那么我们能期望的唯一结果就是一个更没有效率的搜索引擎。人家总是要养活自己的是不是?羊毛总得有出处。在经济学上,有个词儿大家可能并不陌生:市场失灵 (market failure)。说的就是一种类似于“劣币驱逐良币”的过程——当甄别信息的成本太高的时候,我们只能漠视劣质品充斥市场。

我还说说淘宝吧。记得当年第一篇正儿八经写的论文立题便立于机制设计,说的是淘宝各种交易机制为什么、在什么程度上有效。当年淘宝商城刚刚推出来,最大的区别就是进入门槛的提高,所以我写起论文来也很容易,一个机制设计上的改变就足以把劣质品驱逐市场。经过时间的检验,我感觉淘宝商城的认可度确实越来越高,也给予了一大批诚信的中小企业低成本进入市场并进行产品推广的平台。譬如我很钟爱的衬衣品牌:鲁泰。原来的时候要买鲁泰好不方便,要去实体店。去了跟营业员一聊来的都是回头客,因为鲁泰主要是做出口的,国内市场广告偏少,很多人都不知道这东西。再者它价位也确实有点偏高,很多人可能不觉得衬衣值这么多钱。最近发现鲁泰出了一个低端品牌(虽然不是我最钟爱的格蕾芬……)挂在网上卖,物美价廉啊!一下子很爽的买了很多很多东西,家里人也都很满意。所以,我对淘宝商城总是蛮欣赏的,这样的一个平台确实造福了很多中小企业和消费者。

现在回头看当年的那篇论文虽然稍嫌幼稚,不过分析问题的出发点我还是觉得蛮好的——首先要给定的是一个噪音很大的市场,各种优质品、劣质品混杂,有效的信号传递实现起来就比较困难了。所以,合理的机制设计是在保证信号的一定传递水平下、最小化社会成本的机制。这里的社会成本更多的是一种和市场上信息是完全的理想状况相比下、效率损失上的概念。毕竟,制度都是有成本的,这个成本则需要用一个机会成本的概念来衡量和审视。

回到百度。作为一个企业,它的价值在哪里呢?当然,这里立足于我自己的价值观,一个企业的价值取决于其创造的社会价值。简而言之,我们可以接受完全没有百度的日子吗?(假设没有其他的完美替代品)。如果有比百度更有效率的企业,那么显然的它早就占据市场了(剔除各种制度因素和进入壁垒)。百度固然不完美,但是它竞价排名本身的机制并不见得有错。

刚刚看到周涛的一篇文章:《科技日报》关于搜索信息规范与公平性的采访。他的大多数观点我还是赞同的,虽然从技术/算法角度出发的意味很强。我先承认一点很无耻的,相比于公平,经济学更关心效率。当然在效率的定义上我们可以考虑进去公平的因素,这里可能就牵扯到一个社会效用函数的问题:你怎么来衡量一个社会的效用?简言之,你觉得什么是公平的?行为经济学从个体的角度出发有一些涉及“公平 (fairness)”的模型,大致的做法就是在个体的效用函数里面引入一个项来考虑别人行为给自己带来的效用,有点从“外部性”角度出发的感觉。那么对于百度,如果我们假设它是一个理性的经济人(经济个体),那么当外界对它的质疑真正影响到它的收益的时候,自然它会选择一些新的做法。所以从我的角度来说,开发新技术或者更简单的实施新算法(譬如周涛提出的个性化搜索)固然重要,但是这样的运营的成功大概是远远离不开一个合理的机制设计的。

最简单的机制设计理念从我的角度而言可以追寻到科斯定理,在这里或许可以阐释成不同的“物权/收益所得权”分配会造成最终结果的效率不同。这里这么说科斯定理,前提的假设自然是交易成本是存在的。在一个噪音很大的市场,交易成本非但不能被忽视、而且要足够的重视起来。现在我们所面对的互联网市场或许就是这么一个噪音很大的市场。可用的信号诸如信誉也不再一如既往的被人认可(譬如蒙牛的三聚氰胺、山西陈醋的勾兑),新入市场的个体更加是难以建立自己的信誉。那么,怎么能期望不通过机制设计就获得一个相对而言有效率的市场结果呢?

我并不是一味的鼓吹机制设计的重要性。从百度来说,如果他换算法,自然就是对市场机制的一种改变。只是除了算法的改变,还有一些其他的机制设计可能可以被实行。只是百度面临的问题不像淘宝那么直接(后者背后有具体的实物交易),所以我一时还真不知道什么样的机制对于百度这种状况是最佳的、又有什么措施是实践中可以实施的。有些东西或许真的要等待实验结果。

最后,还是说一句,别一味的指责百度了,这不是它一个人的错……就像我们去买地摊货,回来发现不好用或干脆不能用,你会第二天去找城管说立马给我取消这个夜市吗?毕竟还是有需求有供给的。如果大家都不是抱着占小便宜的心理(譬如那些搜索“信用卡套现”的,自己就明知违法吧?),那么很多时候提高警惕是可以防止被骗的。还有,新闻报道为了吸引大家眼球往往是非常有选择性的采取个例。极端个例当然是值得我们警示的,但也不用一拍子拍死所有人哈!在这个混乱的市场环境中,消费者本身也应该有自己的判断力和理智,不要太贪小便宜。天下怎么会有那么多免费馅饼呢是不是?我原来就很喜欢看淘宝社区的防骗技巧,蛮受用的!毕竟人多力量大,群众的眼睛是雪亮的!