Categories
网络新发现

无知的受伤

真的觉得自己有的时候就是没缘由的狂妄,班门弄斧地在各种数学专业的面前卖弄……唉。不丢人就奇怪了。

一大早,一同学QQ问我一个很“深奥”的题,大概就是一群人在排队,怎么来比较快。当时我脑子转啊转,最多也只想到运筹里面涉及的星星点点的图论,然后在R里面弄了半天连穷举怎么举都没想出来……顿时感觉各种悲哀。

最后,忍不住去网上搜了一下,找到了出题教授的网站,然后顺利下到了一个solutions文件。当看到答案的时候,抽了一口凉气,Johnson’s algorithm?这是个神马东东?

果然,算法设计还是一个比较精妙的问题,像我这种连《算法导论》都没读过的人,怎么可能玩的转呢?最近不是很流行的在说,“以大多数人努力程度之低,根本轮不到去拼天赋”。哎!我就是好高骛远、无知使得自己到处丢人的典范啊。

好吧,我觉得还是有必要去读读《算法导论》了,至少这个Johnson’s algorithm我第一遍看wiki没看明白,没找到直觉和来龙去脉什么的。伤心啊。排队论排队论……算法果然水很深啊。

Categories
事儿关经济

(线性)相关性的迷惑与数据挖掘

今天刚刚看到TED的一个视频。以前的时候总是听到TED的大名,但是一直没有怎么看。刚才的是关于统计分析的,感觉很有意思,见:http://v.163.com/movie/2011/7/L/1/M7805EO9V_M7805PEL1.html

TED可能受众是大众一点,所以演讲者更多以举例为主。这个就是以TED现有演讲为基础,来黑色幽默的展示统计分析可能带来的误导和违背常识。哈哈,一如既往熟悉的美式幽默风格呢!

里面有很多例子,比如“受欢迎的演讲者”一般头发要长一些,之类之类很简单的相关性统计。然后给出了一个终极TED演讲模板……当然有点搞笑了。不过这也让我想到,关于“相关性”和“因果关系”之间,我们应该怎么更好的结合起来。统计分析最常规的就是给出相关关系,不管是线性的还是非线性的,以试图寻找连系事物之间的线索。同样的,数据挖掘也是做的这个事儿,在一群纷繁的数据中,找出有价值的信息,往往也是两个事物之间的连系。

大多数情况下,相关性分析是符合我们直觉的,也会给接下来的业务开展带来极大的指导意义,比如那个最著名的“啤酒与尿布”。但是现在大量与我看来有些莫名其妙的统计模型的引入,尤其是计算机发展后算法实现的便利,很多人不管三七二十一就开始套用算法了。没有直觉的算法我还是觉得不靠谱,尤其是无法用经济原理来解释的人类的行为。一个算法或者统计模型分析出来的结果,只有通过演绎法下面的经济原理检验,我才觉得是可以信赖的。违法直觉的结果强行应用,怕是事得其反。

有名的例子有很多,比如最早的时候联合国做扶贫,思路很简单,就是若干统计研究发现,一个国家接受的FDI(外来直接投资)和GDP正相关,所以想当然的认为只要给非洲等贫困国家大量的资金支援,他们就能产生经济增长和发展……然后呢?一笔笔钱显然是白扔进去了。FDI水土不服的例子有的是。显然,这里的问题就是,FDI和GDP确实是有正相关关系,但不见得是因果关系,所以就算FDI扔进去也不见得GDP就会产生。一个线性估计模型出来的参数,可不是这么简单的就适用哦。这也就是计量经济学家们一直纠结的内生性问题——两个变量之间本身就是相互促进和影响的。

这也是为什么,从一个政策制定指导的角度,计量经济学会首先侧重于一个估计量的“一致性”而不是一味的追求估计精度的提高和预测的准确性,这个和金融里面的关注点差别就会蛮大了。这也是我比较欣赏计量经济学思路的一个地方。相比于大多数很fancy的统计学模型和计算机算法,计量经济学还是比较务实的希望先把握准一个方向,然后才去细细地寻找一种解决的策略。现在身在业界,更是体会到一项商业活动找准方向是多么的重要。否则,一旦大趋势改变而我们浑然不觉,那么什么算法模型都只能是一时的准确,而很快就会消亡,毕竟只是在猜而没有一个坚实的基础。

所以,从这个意义上,我一直觉得经济学看问题还是有它自己的深度和远度的,无论是演绎法之下的经济原理与分析模型,还是归纳法之下的计量经济学。从相关性到因果关系,往往还有很长的一段路要走的。走通了,自然登高望远风景无限秀丽。不过,这其中的辛苦也是当事人自知啊~

开发算法固然不容易,但是能把算法找到坚实的基础支撑和准确的应用,再进一步提出算法的优化和进化要求,更是一种考验智力和耐心的事儿。这么看,economic consultant真的是最最伤不起的职位啊!还要懂得如何深入浅出的展现结果啊!太历练人了!

Categories
事儿关经济

放不下的身段

今天在想一个问题,我们设计了那么多数据挖掘的算法,各种各样的、借鉴各个学科方法的,最终到底是想做什么?预测,从我的理解来说。那么这些算法都是想干什么呢?以我的角度,他们是在“准确信息未知”的情况下,通过一些其他的方法模拟一个可能的路径,然后给出相应的结果。这里,尤以“推荐算法”为甚。最简单的,“购买过此商品的顾客xx%还购买过”,就是一种基于群体行为来预测个体行为的思路,虽然不知道主导一个确定的个体选择的究竟是什么。这类思路下的算法还有一个好处,放诸四海而皆准,不用过度关心每个个体的特性,只知道一个群体的路径就好了。鲁迅先生说过,“世界上本没有路,走的人多了,便成了路”。

这里不禁引出来一个经典的问题:上帝到底掷不掷骰子呢?简单的说,就是一定有什么东西是最核心的、确定的在一件事物背后么?还是所有事情都是随机的?这个问题一下子就牵扯到科学的定义和渊源:uncertainty到底是当前情况下的未知还是必然的存在,牛顿晚年怕也是纠结于这个问题投奔神学。从两三年前彭实戈老师演讲中扔出这个问题的幻灯片开始,它就深深刻在我的脑海里了。很多时候,真的,面对这个问题,觉得人类真的很渺小……

说到身段,今天听闻一位和我“弱连接(weakly linked)”的男士已然放下身段投身“鸭子”行业,稍稍惊讶之下我真的很好奇到底生活对他有多么的艰辛、让他可以这么勇敢的作出这么一个决定,毅然决然的放下所有身段。不知是不是社会更宽容了,女大学生卖艺又卖身已经稀松平常了,现在男的也不可阻挡滔滔洪流啊。生活果然残酷。可惜,“隔行如隔山”,我也只能在此妄自揣测,不知其中真由。

说到“隔行如隔山”,这种感觉,尤其在科学界为甚。Science,或者说 scientific research,在当今,实在是分工细的不能再细了,各个领域之间几乎没有多少可以互通的语言。以经济学为例,宏微观的巨大鸿沟就不说了,搞理论的和搞实证的相互看不起也不是不常见。很少有人,愿意放下身段、拿出时间,用心的去学习和体会另一个领域的人为什么从另一个角度来看待同样的问题,为什么对科学研究有着截然不同的评判标准。比如同样是数据分析,计量经济学对于“一致性”的极致追求,和数据挖掘算法对于预测精度的追求,这样不同价值观又是否有一些互补的空间?可惜,我认识的两个领域中的人,几乎没有人可以放下身段去另一个领域从头开始。

同样的感觉深深的刻在social network、我自己的研究方向。研究一个社会网络,谈何容易!研究对象是人,自然逃不开 sociology;而研究角度是经济,自然又需要很多经济学的积淀;最后,研究工具是网络分析,自然离不开图论、complex network theories等等。更具体的,某一个研究的实际问题往往离不开一个具体的环境,比如epidemics 等等学科的渗透。然而,各个学科之间,往往互不通气……哎,可怜我看paper的时候,各种期刊的paper一下子都扔过来,然后各种痛苦,感叹为啥没人把这些研究成果都串起来呢?follow这些东西好费时费力啊。

或许,有的时候,放下身段,确实太过于痛苦了吧!牺牲那么多短期利益,长期还是那么的不确定,呃……现代科学的进步真的是对人的要求越来越高了~

Categories
互联网产业观察

怎能寄希望于不染青莲

我还是没忍住,索性说说对于百度最近被各种攻击的一些看法吧。

前段时间打开电视,习惯性的就调到CCTV 2 去了。我说过了,我还是经常看CCTV的,毕竟上面很多信息还是有用的。在我已然被隔离了一年不知道这些热播的电视剧说的是什么的今日,打开电视调到CCTV或许并不是一个坏选择。

然后很意外的看了很久对于Baidu的批判。虽然稍早的时候在网上看到大家说起这个事儿,但是还是抵不上自己看一遍来的深刻。貌似,前些年的时候也有过类似的报道。怎么,旧闻重提?

实话说,我原来是不用百度的,因为觉得上面的信息太繁杂,一个个辨认起来太麻烦,有的时候还是google更符合我的习惯。这就像开始的时候我是有点不信任淘宝的,因为淘宝上各种劣质品我未能幸免的被忽悠了好几次。但是现在我还是整天上淘宝买东西。为什么呢?因为淘宝商城确实是有很多好东西的,再说现在不是还有一个东西叫做“退货保险”么?怕什么!

说到百度,对我来说和早年的淘宝并无二致。这都是中国的互联网大环境在那里摆着的结果。你能指望一个企业来承担所有的社会责任吗?总是期望企业来“出淤泥而不染、濯清涟而不妖”,这真的公平么?为什么没人去要求工商部门更细致的监管?如果这些甄别信息的成本强加在一个企业身上,那么我们能期望的唯一结果就是一个更没有效率的搜索引擎。人家总是要养活自己的是不是?羊毛总得有出处。在经济学上,有个词儿大家可能并不陌生:市场失灵 (market failure)。说的就是一种类似于“劣币驱逐良币”的过程——当甄别信息的成本太高的时候,我们只能漠视劣质品充斥市场。

我还说说淘宝吧。记得当年第一篇正儿八经写的论文立题便立于机制设计,说的是淘宝各种交易机制为什么、在什么程度上有效。当年淘宝商城刚刚推出来,最大的区别就是进入门槛的提高,所以我写起论文来也很容易,一个机制设计上的改变就足以把劣质品驱逐市场。经过时间的检验,我感觉淘宝商城的认可度确实越来越高,也给予了一大批诚信的中小企业低成本进入市场并进行产品推广的平台。譬如我很钟爱的衬衣品牌:鲁泰。原来的时候要买鲁泰好不方便,要去实体店。去了跟营业员一聊来的都是回头客,因为鲁泰主要是做出口的,国内市场广告偏少,很多人都不知道这东西。再者它价位也确实有点偏高,很多人可能不觉得衬衣值这么多钱。最近发现鲁泰出了一个低端品牌(虽然不是我最钟爱的格蕾芬……)挂在网上卖,物美价廉啊!一下子很爽的买了很多很多东西,家里人也都很满意。所以,我对淘宝商城总是蛮欣赏的,这样的一个平台确实造福了很多中小企业和消费者。

现在回头看当年的那篇论文虽然稍嫌幼稚,不过分析问题的出发点我还是觉得蛮好的——首先要给定的是一个噪音很大的市场,各种优质品、劣质品混杂,有效的信号传递实现起来就比较困难了。所以,合理的机制设计是在保证信号的一定传递水平下、最小化社会成本的机制。这里的社会成本更多的是一种和市场上信息是完全的理想状况相比下、效率损失上的概念。毕竟,制度都是有成本的,这个成本则需要用一个机会成本的概念来衡量和审视。

回到百度。作为一个企业,它的价值在哪里呢?当然,这里立足于我自己的价值观,一个企业的价值取决于其创造的社会价值。简而言之,我们可以接受完全没有百度的日子吗?(假设没有其他的完美替代品)。如果有比百度更有效率的企业,那么显然的它早就占据市场了(剔除各种制度因素和进入壁垒)。百度固然不完美,但是它竞价排名本身的机制并不见得有错。

刚刚看到周涛的一篇文章:《科技日报》关于搜索信息规范与公平性的采访。他的大多数观点我还是赞同的,虽然从技术/算法角度出发的意味很强。我先承认一点很无耻的,相比于公平,经济学更关心效率。当然在效率的定义上我们可以考虑进去公平的因素,这里可能就牵扯到一个社会效用函数的问题:你怎么来衡量一个社会的效用?简言之,你觉得什么是公平的?行为经济学从个体的角度出发有一些涉及“公平 (fairness)”的模型,大致的做法就是在个体的效用函数里面引入一个项来考虑别人行为给自己带来的效用,有点从“外部性”角度出发的感觉。那么对于百度,如果我们假设它是一个理性的经济人(经济个体),那么当外界对它的质疑真正影响到它的收益的时候,自然它会选择一些新的做法。所以从我的角度来说,开发新技术或者更简单的实施新算法(譬如周涛提出的个性化搜索)固然重要,但是这样的运营的成功大概是远远离不开一个合理的机制设计的。

最简单的机制设计理念从我的角度而言可以追寻到科斯定理,在这里或许可以阐释成不同的“物权/收益所得权”分配会造成最终结果的效率不同。这里这么说科斯定理,前提的假设自然是交易成本是存在的。在一个噪音很大的市场,交易成本非但不能被忽视、而且要足够的重视起来。现在我们所面对的互联网市场或许就是这么一个噪音很大的市场。可用的信号诸如信誉也不再一如既往的被人认可(譬如蒙牛的三聚氰胺、山西陈醋的勾兑),新入市场的个体更加是难以建立自己的信誉。那么,怎么能期望不通过机制设计就获得一个相对而言有效率的市场结果呢?

我并不是一味的鼓吹机制设计的重要性。从百度来说,如果他换算法,自然就是对市场机制的一种改变。只是除了算法的改变,还有一些其他的机制设计可能可以被实行。只是百度面临的问题不像淘宝那么直接(后者背后有具体的实物交易),所以我一时还真不知道什么样的机制对于百度这种状况是最佳的、又有什么措施是实践中可以实施的。有些东西或许真的要等待实验结果。

最后,还是说一句,别一味的指责百度了,这不是它一个人的错……就像我们去买地摊货,回来发现不好用或干脆不能用,你会第二天去找城管说立马给我取消这个夜市吗?毕竟还是有需求有供给的。如果大家都不是抱着占小便宜的心理(譬如那些搜索“信用卡套现”的,自己就明知违法吧?),那么很多时候提高警惕是可以防止被骗的。还有,新闻报道为了吸引大家眼球往往是非常有选择性的采取个例。极端个例当然是值得我们警示的,但也不用一拍子拍死所有人哈!在这个混乱的市场环境中,消费者本身也应该有自己的判断力和理智,不要太贪小便宜。天下怎么会有那么多免费馅饼呢是不是?我原来就很喜欢看淘宝社区的防骗技巧,蛮受用的!毕竟人多力量大,群众的眼睛是雪亮的!

Categories
事儿关经济

自我通识教育

貌似最近“通识教育”这个词儿蛮热的,很多大学一进去都不分专业了,先来一段什么“通识教育”再说。好吧,我这个已经毕业的人了,也没什么被教育的机会了,只能自我教育一下,故而改称之“自我通识教育”。

今天在读一篇paper,呃,大概久违的非econ的paper了吧。

Zhou T, Kuscsik Z, Liu JG, Medo M, Wakeling JR, Zhang YC. Solving the apparent diversity-accuracy dilemma of recommender systems. Proc Natl Acad Sci U S A. 2010 Mar 9;107(10):4511-5. Epub 2010 Feb 22.

嗯我知道各位会依旧容忍我的引用不规范的。先这样吧。然后按图索骥,很快就找到一篇博文论及此文,巧的是这篇博文正来自COS的一位特约作者阿稳,豆瓣的算法工程师。当时顿感,嗯啊,世界一向很小的是不是。稀里糊涂的看了半天,终于明白这东西大概在鼓捣些什么。不过,我的角度肯定不是从算法本身的角度,更多的是关注一下这种idea背后的逻辑吧。嗯啊,比如我可能会关心一下“为什么”,从数学或统计的角度来说就有一点寻求“一致性”的味道。现在越来越不敢用“隔行如隔山”来宽慰自己,看看我这些年做过的事事儿,就知道天下没有什么绝对的某一领域之说。那天写完那篇关于高维数据降维的文章之后(参见:[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]),过两天正好跟一学计算机的朋友吃饭,顿时被指责我不务正业,一个学经济的来掺和啥啊。这年头,是不是,术业有专攻?

呃,我不管,自我通识教育进行中。记得年初的时候经常和一位朋友闲扯,他就论及为什么“交叉领域”的研究这么稀缺。是啊,想在一个领域做好已经不容易了,更何谈深入另一个领域?此外,这还得有一种为求真理不断奉献的精神,若是对知识没有渴求,那么怕是也没什么动力继续研究下去吧。呃,好吧,其实我是对“金融物理学”有一点点偏见的。刚搜了搜去年此时居然写了一篇关于金融物理的文章,嗯啊,莫非现在的眼界已然不如当年广阔了吗?弄得我都有点冲动去再读一个硕士了,比如statistics或者physics。当然,说说而已,付诸行动的可能性真不大。顺便说一下Mcgill有位牛人,一面是计量大家,一面又在物理学顶级期刊上灌水,看他的CV顿时让人感觉“此人只应天上有”。不卖关子了,我指的是Russell Davidson

最近在考虑把硕士毕业论文好好的从头看一遍,把各个部分分别的仔细考量一下,看看能有什么新的进展。从这个角度而言,当时真的是很冒险,我和我的合作者就这么大胆的去应用经济学到公共健康领域。回过头来看,其中运气的成分不少,要不很可能无法按时完成呢!不过,有点怀念上几个月可以静下心来写两篇文章的感觉,很舒服,很专心,收获也很大。果然,做过一遍的东西还是理解的更加深入些。希望能有一些新的洞见吧。

嗯啊,算是给自己一个锻炼和成长的机会吧。总该暂时的离开economics一段时间,换一个角度、换一个心情来看待这门学科、抛去所有光环什么的。看看落园这些年来攒下的文章,一种小小的惬意感油然而生。明天还要做一回免费的consultant,嗯啊,既然我已经下决心不去Paris了,这封email多少是带有一些愧疚的味道的,我也想静下心来好好的想一想怎么可以帮助一个项目更好的运行。嗯啊,人总是在不断的学习中,也希望这样的学习和磨砺可以带来更快的成长吧。所谓“生于忧患,死于安乐”嘛!

[p.s.] 这是不是意味着落园的栏目设置要改一下了呢?可能“事儿关经济”下面的东西会越来越少,大概需要一个新栏目来替代了吧。