Categories
互联网产业观察 读书有感

网购中新品牌更难出头?

前几天看到最新一期的 American Economic Journal: Microeconomics 出来了,扫了一眼目录然后发现有两篇papers挺好玩的。也可能是现在人在电商的缘故,对online marketing格外的敏感,所以先拎出来一篇对比在线个购物和传统购物中新品牌探索的论文,一睹为快,顺便忍不住和大家分享一下:

Pozzi, Andrea. Shopping Cost and Brand Exploration in Online Grocery, American Economic Journal: Microeconomics,4(3), p96-120, 2012

AEJ版的米有权限下不到(有权限的童鞋帮忙给我发一份),去作者网站上找到了working paper版。有兴趣的不妨去下个PDF看看原文,虽然有点小长(econ的论文难得见到50页以下的-_-||,命苦啊)。

---------一点经济学理论背景知识----------

相关信息提供结束,下面开始全力关注正文。网购出现之后,由于其一堆让人欣喜的特性,受到广大人民群众的广泛欢迎。作为一个从高中时代就开始支持电商的孩纸,我个人网购的主要理由如下:

  • 便宜:相比于实体店,网店房租等固定成本投入低的多,所以价格上自然有所让利。加之现在电商之间竞争惨烈,消费者自然可以期望一个更接近于博弈均衡价格的价格(基本就是,会稳定的趋近于成本)。优胜劣汰的信息丰富下的完全竞争市场模型嘛。
  • 选择丰富:实体店往往受限于店面面积,能陈列的就那么几个牌子。而网购则不同,可以一下子把更多的东西都放在上面,任君挑选。有的时候可以很方便的买到一些平时便利店买不到的小东西,各种造福生活。当然还有各种限定版或者水货之类的?
  • 便于比较:比较一方面是价格,另一方面还有商品的评价。比如买电器,在国美苏宁基本上就是推销员口若兰花,根本不知道一件东西到底有什么缺点(比如西门子关不上冰箱门)...而在电商网站,可以很容易的看到其他购买者对于商品的评价,各种实拍图什么的,有利于作出更理论性的购买判断。再者,选定了款式之后,价格比较也是很容易的。呃,作为一个有经验的网购者,基本上不会出现严重的被欺骗交易——网购市场一分钱一分货的道理还是一直存在的,所以我很少会买特别廉价的东西,还是习惯于一个reasonable的折扣(相较于实体店)。

我曾经很关注网购市场,尤其关注的是其中的交易机制设计。这个名词听起来挺专业的感觉,其实不过是一些很细微的规则:比如,淘宝商家商品上架要不要收费?商家要做哪些身份验证?商家的声誉是怎么积累的?商品打分评价是怎么计算的(豆瓣现在对电影图书等评分系统有了更好的算法调整,避免过高/过低的个别评价干扰整体结果)?退货换货制度是怎么设计的?保险又是怎么规定的?

这些看起来细微的东西,累积起来,就在一定的时间范围内决定了一个市场的生态状况。简单的说,每一次淘宝对于收费等等的调整都会引起很多商家的地震,优胜劣汰本来无可厚非,只是这其中牺牲的卖家有的时候还真让人感觉制定规则之人的凶残~ 嗯,淘宝需要经济学家,嘻嘻。这些东西真的不是拍拍脑袋想出来就可以的嘛~

而在一个给定的制度下,从更微观的角度,我们不仅仅可以看到商家之间的竞争,更多的也可以看到消费者行为的变化。比如现在更习惯淘宝商城或者京东这些B2C平台的购物者,和那些喜欢在淘宝C2C中浏览购买的人群(或者同样的人购买的商品),往往都是呈现一定程度的差异性的。简而言之,这是对于消费者的一个自然划分过程,通过他们对于机制的选择体现了他们本身的属性:购买力,价格敏感度,风险偏好,时间成本,计算机使用程度,决策理性程度等等。这些属性共同的,在网购的市场中,决定了消费者购买的产品和购买地。在这些特性之中,风险偏好貌似是网购市场中最最让人关注的事情——可能是因为,市场机制的调整会直接的影响不同风险偏好程度消费者的购买行为变化。一般说来,感觉习惯于B2C的消费者会有更高的风险厌恶特性——哪怕付出稍稍高的价钱。为什么这里我说B2C价格一般会高一些呢,主要是B2C为了进入市场(比如拿到淘宝商城的执照),需要一次性或者长期的付出更高的成本(进入成本或者声誉成本,或者像京东商城那样趁着奥运会打广告什么的)。短期之内低价可能是驱逐其他竞争者的策略,但长期看来这些成本必然还是由消费者买单的。

风险偏好的一大体现就是,消费者对于既有商家或者既有商品品牌的认可。比如,对于一些日常用品,我会倾向性的选择某些品牌。相机,嗯,Nikon或者Sony吧;笔记本自然是IBM(好吧现在是联想)的Thinkpad;出门一般不会去坐小航空公司的航班,碰到天气不好先取消的肯定是这些,还是大航空公司的调度能力强一些。之类之类的吧,人们对于品牌的依赖无处不在。品牌理论有很多,我有些武断和路径依赖的认为,品牌存在的核心价值就是降低了消费者的选择成本——习惯性的去购买自己习惯的商品,不会出现什么突发的不适应情况(当然也就没有了意外惊喜)。当然,品牌还有一个功能就是向自己周围的人传递一些信号,比如投行的孩子们一般需要一身名牌来武装自己,而IT男则常年拎着各种小众神器招摇过市吸引MM眼光...奢侈品基本就是这个目的的。然而,无论是哪个目的,品牌的塑造总是有成本的。一遍呢,是口碑长期的积累,类似于“百年老店”这样的声誉,这个是时间赋予的;另一方面,则是广告投入。最近看奥运会的童鞋有米有发现,比赛之间穿插着各种广告,不断的用某些名词来刺激人们脑子中对于品牌的反应和认知(恶心的例子如某年春晚,恒源祥的“羊羊羊”,导致大家的电视机集体呈现死机状~你懂得)。

就算我们耳熟能详的一些品牌,也有子品牌和多品牌策略,可以方便的区分不同的顾客群。典型如各大酒店连锁集团,例如喜来登,高端的有以私人管家服务著称的“瑞吉”(补一句,拉萨有一家,让人各种流口水啊~);商务客有艾美、威斯汀和喜来登;然后还有稍稍平民的福朋喜来登。日常生活中,你知道的,什么潘婷啊、沙宣啊、飘柔啊都是宝洁的,对吧?这个世界大概只有强大如apple,才能上下通吃吧...一个iphone搞定所有孩子。微博最近流传了一张很经典的快消品品牌图:the illusion of choice,嗯,其实这些都是一家的...

1c63c0e4c3e0a2d4dd93d2f64dddf848-1024x642

那么一个关键的问题也就浮出水面了——在网购中,人们对于新品牌是什么态度呢?我们一边看到淘宝让很多江浙地区的中小企业有了打造自己品牌的机会(比如裂帛?),另外一个方面网购的时候出于风险厌恶和时间紧迫,可能人们更多就是匆匆买完自己需要的东西而已。那么,是不是对于人们在传统超市里面买的更多的快消品,网购市场会使得新品牌更难出头呢?而对于一些实体店更难买到的东西,或者人们更追求风格和设计的商品(比如女装),网购中反而新品牌更容易确立呢?

----------实证结果-------
罗嗦了这么多,终于回归这篇论文,让我们来看一下实证的结果吧!

先说数据集,嗯嗯,这个永远是我们首要关心的。当然,世界上永远不可能有那么完美的数据,可以100%科学的回答这个问题。不过有的时候选择性样本也不是什么大问题,如果这个样本代表性还是可以的话。在Andrea这篇论文中,她的数据来源于美国一家拥有1500多家门店的连锁超市。有意思的是,这家超市一是有会员制度,二是它同时提供网上购物。也就是说,你如果是这家店的会员,既可以自己开车去超级宽广的超市购物,也可是坐在家里点点鼠标等人送货上门。具体到数据,作者拿到了11640个家庭2004到2006年之间的购物样本(时间有点早呃),这些家庭同时有实体店和网络商店的购物记录。数据是scanner level的,就是可以看到购物清单,包含商品名称价格等等。

然后,作者为了保持一个比较好的可比性,选择了grocery这个类别,基本就是我们常见的各种快消品:食品、日用品这些吧,可以参见上面那张图。作者对于新品牌的定义可能和我们感知的有点不同:对于每个消费者来说,买他以前没有买过的品牌就算一次新品牌探索行为。不管这个新品牌是不是真的新上市的。特别的,作者格外关注cereal的购买(燕麦片?),体现了人们对于早餐的选择。

好了,基本的数据情况就是这样,我们先来看一眼简要的结果:网购中,消费者购买新品牌的倾向比实体店中低13%。

可能的原因是:

  • 网购快消品更多的是为了节省时间
  • 消费者对触碰不到的东西质量更为忧虑
  • 购物网站上更多的呈现“历史购买记录”等对新品牌购买有负面影响的信息

前两点有点显而易见,最后一点则是非常有趣的。去年接触了很多推荐算法方面的东西,从理论的角度来说,很多现行的推荐算法确实倾向于推荐热门的商品。最简单的,如amazon初期使用的,购买过XX的人还购买过YY,这样一来越来越多的人可能会被导向YY。一些新品牌因为可能比较小众,就比较难以在这种推荐算法中脱颖而出。如果是电影还好,至少还有导演演员等等可以做一些基于内容的推荐。但是,对于快消品来说,本来品牌的竞争就已经呈现白热化了,推荐算法除非特别调整,否则还是很难把这些近乎“冷启动”的品牌推荐出来的。此外,推荐算法的diversity一直是一个评价算法很重要的指标,虽然很多简单的算法带来了较多的转化率,但是这样长此以往会出现热门商品更热门,冷僻商品更冷僻的两极分化。热门商品由于各个电商之间竞争激烈,很难获得高额利润,这样下来不一定电商的利润会更高。

与之相对的,是实体超市中的“推荐算法”——强大的人肉推销员。在实体超市中,会有各种试吃试用的机会,还有推销员现场演示,这样的使用体验感知会抵消人们对于新品牌的质量忧虑,反而有了猎奇的好奇心。这样一来,冷启动也不是一个冷冰冰的问题了。

嗯,接下来我们自然关心的是,一个消费者在什么情况下,会从传统超市购物转向网络购物呢?这大概是很多电商极为关注的问题。对于这个问题,Andrea使用了一个简单的线性模型,考虑了距离、运费、是否为周末这几个因素,外加一堆控制变量,主要是受教育程度、收入等等家庭特征因素。然后对于燕麦片的需求,主要考虑了价格、以前是否购买过、购买渠道等等因素。

嗯嗯,最后高潮来了——估计的时候,Andrea使用了贝叶斯估计(Gibbs随机抽样),对于购物渠道选择估计结果如下:

  • 运费越高,网购可能性越小。
  • 越有钱的人,越倾向网购(当然财富本身可能是内生的,由教育程度等等决定)。
  • 周末的时候,人们更可能出门购物而不是网购(注:这个结果可能更适用于美国)。
  • 住的离超市越远,越倾向网购。
  • 18-35岁的人群更爱网购。

而后,对于消费者品牌选择的估计结果为:

  • 网站界面设计的影响:新品牌在网购中如果希望脱颖而出,往往需要提供一个特别诱人的巨大折扣(4$以下折扣基本无作用——而一般一盒麦片也就是三五刀而已)。
  • 周末的时候,新品牌看起来更容易被发现。
  • 网购中,人们对于质量的忧虑更高。
  • 人们时间不足的时候,购买新品牌的可能性降低。

那么,网站上的推荐列表影响到底有多大呢?作者实施了一个simulation,从“历史购买记录”到“相似购买推荐”,实验结果是两年的时间内预期可以提高23%的新品牌探索比例,但是依旧低于实体店。同时,模拟结果也侧面证实了,一个新品牌进入网购市场的时候,不仅仅面对实体店中存在的进入壁垒,同时还受到人们历史购物习惯和推荐列表的双重影响(尤其是历史购买记录,成为了一个新的无形的进入壁垒)。

那么,最后的指导就是,新品牌若想在网购中谋得一席之地,类似于病毒营销的强力广告营销是不可或缺的;与此同时,如果网站的推荐算法包容新品牌,那么新品牌将受益,更容易脱颖而出。嗯,满符合直觉的嘛~ 在一个成熟的市场要脱颖而出,不靠创意和广告怎么可能呢?此外网站算法导致的信息不同流向,自然会很大程度影响网购的品牌选择——不像实体店,网络中的信息更多的呈现“被设计”感呢。

Categories
我的生活状态

充实的一周、R会议小报

刚刚结束的一周大概是最近最充实的一周了,几乎每天都在外面跑——去杭州就不用说了,周五更是一天之内横穿了上海两次+,各种高铁地铁磁悬浮、公(交)车私(家)车出租车……真的是为上海的经济发展和碳排放量增加做出了杰出贡献啊!同样的,肯定睡眠不足,终于知道每天都是最终脑子不转了躺在床上立马入睡的感觉,居然被看出来面色憔悴……嗯,我还是喜欢解释为一种挑战极限的充实感。前一周,我被养的太舒服了,果然,这周就必然的加倍还回去。

忙碌的最主要原因就是今天刚刚落下帷幕的第四届中国R语言会议(上海会场)。正如前几日发出来的[cref %e7%ac%ac%e5%9b%9b%e5%b1%8ar%e8%af%ad%e8%a8%80%e4%bc%9a%e8%ae%ae%e4%b8%8a%e6%b5%b7%e4%bc%9a%e5%9c%ba%e9%80%9a%e7%9f%a5%ef%bc%88%e9%99%84%e6%bc%94%e8%ae%b2%e5%88%97%e8%a1%a8%ef%bc%89 上海会场演讲列表],见到了很多朋友,老朋友新朋友,各种兴奋!很多人都是自从09年第二届R会议之后就没有见过了。想念已久啊!

终于也体会到办会议的辛苦,很多细节的事儿都需要考虑到,比如最后还是忘记了很多人要的邀请信……汗,如果谁需要的话给我留个言或者发个email,我们会发扫描件补上、或者快递原件的。这个真的是抱歉了。

学术界的话,谢邦昌老师、超级长的VGAM包的作者Thomas Yee、周涛教授,当然还有汤老师的一如既往的支持,都是让我们特别感动的。此外,赵明和钟春燕带来的在基因富集分析和肿瘤生存预测中的应用也让人印象深刻。

COS自己人就不用废话什么了,一群干将北京杀过来镇场子,金融的数据挖掘的,还有“熹云轩”强大的可视化(这个,云被涛代了,果然有“奸情”啊)。

业界的,自然淘宝和茂源资本的加入让我们格外开心,也要感谢土豆、茂源和芒果的赞助~要不我们不可能把这次会议办的这么红红火火气势昂然的。资深潜水员牟官迅和资深开发者邵凡的报告都让我们一下子站到了数据分析的最前沿。

其他的各种感动就不再一一列举了,我是抽空还打了个酱油折磨了大家耳膜20分钟,罪过啊。slides还是厚脸皮传上来先,很快搜集齐了大家的slides都会一并放在COS主站的。

slides_network_experiments_R

Categories
互联网产业观察 经济、IT观察与思考

不一样的亚马逊和Amazon

我这篇文章倒不是想给Amazon做什么宣传,而只是借机说一下最近的一些最简单的购物经历,顺便感慨一下制度、诚信的缺失。

可能在国内被各种卖家欺骗惯了,尤其是在淘宝早年的时候,购物一般都是额外的小心的。只是前几天还是不小心上了一次当。要做学历认证嘛,要翻译件嘛,还不能自己翻译,就找了一家很近的翻译公司做这个事情,价格也不便宜,但是想着事情那么多还是花钱买时间吧,于是就爽快的付了翻译费。然后翻译件拿到了,跑到认证地点去,人家却说这个翻译件不符合要求^#%#。无奈啊,只能又掏钱去做一次翻译,哗哗的人民币流出去还是觉得心疼的,毕竟自己赚的钱知道赚钱的辛苦之处啊。而后自然不甘心,去找第一家翻译公司,百般推卸责任,后来直接粗鲁的视而不见。我也没有太多的时间跟他们耗着,于是315打个电话,又想到当时是用的信用卡所以也找到了信用卡发卡行,毕竟国外的信用卡消费还都是有保障的,可以在服务不到位、商家诚信有问题的时候通过银行交涉退款什么的。

315自然是两边打个电话说了一遍,然后就一副事不关己高高挂起,把皮球踢给其他部门。呃,也罢,本来也没指着消费者权益被他们保护。信用卡发卡行自然是态度好的多,一路绿灯帮我调单之类的,但是最后也很无奈,通过银联的交易他们也没有办法退款什么的,只能按照我的投诉做一个不良记录,但商家还是建行那边的,他们也只能反映给银联。这个,也罢了,维权成本这么高的情况下我也犯不着发什么律师信之类的。权当花钱买教训了。

也许是在欧洲太习惯了人们之间默认的诚信,没有什么怀疑的。同时,这几天同样发生在我身上的另一件事则让我觉得实在是太过于鲜明的对比了。8月份的时候在Amazon买了两本英文书,当时怕丢选的还是稍贵一点的运输方式,本来说是预计9月底能寄到,结果现在都还没有收到。忍不住,就给Amazon发了个Email,看看能不能有什么音信,至少能给我个包裹号码之类的跟踪一下嘛。结果很快Amazon就给我回邮件了,还主动的退还了25刀的运费到我的信用卡里面!信中各种抱歉、还说一个月之后再没有收到就可以帮我重新寄或者退款之类的。我只是昨天忍不住小小的抱怨一下嘛,连电话都懒的打,没想到态度居然这么好!

其实倒也不意外,联想到7月份的时候换新Kindle的百般顺利,当时就对Amazon刮目相看。当我爸妈看到我几个电话就很快的拿到一个全新的kindle的时候,那种惊讶啊!是啊,在国内买个东西要是想退货,那难免和销售人员口水交涉一番。哪有Amazon这种顾客为上的服务态度。

除了态度之外,背后更多的是一些诚信问题。还是说美国好了,一系列的诚信体制让每个人、公司都知道违反诚信的高昂代价。信用卡的核心是信用,而不是国内理解的“透支”功能,否则不过是一张简单的贷记卡而已。其实我对招商银行的印象蛮好的,信用卡一直用的很舒服,但是客服也跟我很无奈的承认在国内信用卡机制的不健全和跟国外的差距,我们也只能容忍和谅解。我只是百无聊赖的抱怨了一句,信用卡的信用评分什么的对我们持卡人有这么全面严格的要求,却对商户没什么要求,真的是不公平啊!

联想到最近淘宝商城热热闹闹的“起义”活动,我就觉得真的是不能不涉及诚信体制的问题了。这东西,本科的第一篇论文就论及与此,没想到现在还在这么热热闹闹的上演。我从来都是支持淘宝提高进入门槛的,这才有利于过滤掉一些竞争力不足、打诚信擦边球的商家(虽然相比于完美市场会有效率损失,但这正是信息不对称下我们为信息付出的成本)。很多人不敢去淘宝买东西,我就说一句很简单的,去淘宝商城嘛!至少,不会有什么太多的假货。当然,商城本身的其他问题就不多说了,也难怪最近这么大力的整合凡客等垂直B2C网站。现在,淘宝已经拿自己的顾客资源来卖钱了,可见这么多年的市场培育还是有价值的。

只是,太多太多事情折射出来的都是背后的诚信体制的缺失:人们习惯了有空子就钻、有便宜不占白不占。如果说中国经济增长未来有什么大的阻力,我觉得诚信体制可以算是一个。良好的诚信体制有利于市场资源科学合理的流动,而诚信体制的缺失只会让这个市场越来越“柠檬”,资源的配置被扭曲、买卖双方的交易成本被大幅增加。虽然诚信体制对于越小的经济活动越关键,但是不积小流、无以成江河,底层微观经济活动诚信的缺失,必然可期宏观层面的更多问题。

至于为什么我说“亚马逊”不是Amazon,大家可以搜搜最近卓越亚马逊的新闻,貌似也有诚信危机啊!果然,什么国际公司到了中国都是难免“常在河边走,哪有不湿鞋”?

不过,至于华尔街,那就另当别论吧。少数聪明人认为自己可以玩转地球,自然有童话破灭的时候。

Categories
事儿关经济 经济、IT观察与思考

社会实验的特殊性(三)

在上一篇[cref %e7%a4%be%e4%bc%9a%e5%ae%9e%e9%aa%8c%e7%9a%84%e7%89%b9%e6%ae%8a%e6%80%a7%ef%bc%88%e4%ba%8c%ef%bc%89]里面回顾了费歇尔的实验设计三原则之后,那么归根结底,我们为什么要做实验?

从一个纯经济学的角度来看,社会实验的目的之一就是在我们面对现有的数据受到各种局限、从而无法完美的回答我们关心的问题的时候(说到底还是各种内生性问题),采取的一种主动出击寻求答案的方式。故而,实验之前我们一般是有一个基本的思路和方向的,然后更多的想去看一下这个东西到底是不是在现实中就是这个样子。从这个角度而言,社会实验是在很明确的我们知道想得到什么信息的方向上去设计的。

说一下从我个人的感觉上的最大的在业界和在学术界的不同,可能就是data上。在学术界,难得会有非常好的data,所以很多的时候我们都是在有限的数据资源的基础上、去力求用最完美的方法估计我们感兴趣的值。数据源有限的原因有些是历史上的,比如我们研究几十年前的事情,自然当时没有电脑等东西可以完善的记录所有的事情;有些是数据本身的性质决定的,比如宏观里面常用的gdp等东西,中国的数据是1978年之后才有的,而且一般都是年度数据,更受限于国民统计汇总的层级汇报,自然会有一些测量偏差;有些是业界有数据,但是没法得到,这里就牵扯到一些隐私等法律权益、或者数据接口API等开放的幅度的问题;还有些是知道数据在哪里、也可以得到,但是成本太高,比如个人层面的数据,除了全民普查外很难有全覆盖的数据,一般只是小规模样本;最后的就是信息并不是直接以数字的方式记录的,比如twitter上面的用户微博记录,因此需要借助文本挖掘等手段进一步深究。

业界主要提供的就是第三类,大量的个人用户的数据,比如淘宝上各种买卖双方交易的数据。现在淘宝的交易量真的是非常大,而且每笔交易都是真实的现金往来的(我们不考虑非法的洗钱状况),其实背后对应的就是一个真实的微观交易的集合。但是这个交易数据怎么用?最简单的,我们可以看价格,对于同质品之间竞争已然白热化的,已然相差无几,那么价格几乎就等同于scanner price,可以用来衡量物价的波动。当然,网络交易有不同于实体交易的地方,比如受限于运输成本和采购的规模效应,肯定会和超市里的价格有所区别。另一方面,网络上的价格信息流动非常充分,越来越接近于理想中的完全竞争市场对于信息的要求,所以多少也让人兴奋。

另外一个有趣的数据可能就是微博,因为其实质上是一种“短平快”的信息传播渠道,会把信息通过简单的几个信息源极快的扩散到整个网络中去(所谓的influencer model)。所以现在很多人炒得很热的微博营销也是背后有着深刻的渊源的。但是同样的,信息传输成本降低的背后就是噪音的增加,因此对于微博的信息分析起来除了文本挖掘技术实现之外,就是怎么去在大量的噪音数据中寻找到有用的信息。从这个角度而言,就是在进行任何文本挖掘或者信息提取之前,是不是有一个主导的思路去明确的知道需要挖掘的信息。业界很多时候不是数据太少了,而是太多了,以至于大家根本不知道这些数据可以怎么用,所以data mining成为了救命稻草,一窝蜂的上去看看能不能挖到金矿。从我的角度看,每一个data mining算法背后必然是有一种主导的思想来支撑的,比如决策树,不过是分类统计最优化路径的感觉,这样的直觉还是蛮强的。所有数据分析的任务无外乎两个字:降维,怎么在一个多维的好烦的数据海中找到自己最感兴趣的数据,可能是几个变量之间的关系,可能是一个综合指标的创建。最简单的,GDP就是对于国民生产消费活动的降维衡量指标,所以他既然降维了自然有损失,能够多么真切的反应经济活动的现实就必然要打个折扣。

经济学里面常用的“降维”的方法就是回归,无论回归在统计学或者其他学科里面被批判的多么体无完肤,但是回归最大的好处在我看来就是最容易融入经济学直觉。在[cref %e5%b0%8f%e7%aa%a5%e2%80%9c%e9%ab%98%e7%bb%b4%e6%95%b0%e6%8d%ae%e9%99%8d%e7%bb%b4%e2%80%9d-2]里面我曾经提到一些最新的高维数据降维的算法,然而算法本身必然是有直觉甚至是(经济)理论来支撑的。当数据挖掘方法被应用在一个经济活动或者经济问题的时候,如果完全脱离了经济直觉和经济思维衍生的分析方法,我觉得未免有点太过于高傲了。有的时候,如果分析思路足够敏锐,那么基于这样思路的各种算法的出来的结果可能是殊途同归。正所谓“万变不离其宗”,这也是我觉得很多data mining的方法应该和经济学、商科的思维更好的融合在一起的缘故。就像挖矿,我们除了要有先进的挖掘机以外,事前的各种勘探和经验思路还是有非常大的价值的,至少可以降低找到金矿位置的成本、尤其是时间成本。这也是我觉得经济学在业界的应用天地断然不仅仅限于和金融相关的那些而已的缘故。

另外,如果“降维”说的广义一点,就是科学的目标。可能不同的人对科学有不同的定义,我除了喜欢一种“概率”角度的定义之外,刚看到一种定义也是蛮受启发的,

The object of science is the discovery of relations.., of which the complex may be deduced from the simple. John Pringle Nichol, 1840

然而,说到底,经济直觉总要来源于实践经验,只要经济学还是定位于“研究人类行为活动的科学”。实践中信息不足的时候,信息是制约的瓶颈,因此我们要借助更多的数学建模工具来力求完美精细的刻画现有的数据构成的轮廓。反之,如果数据是可选择的,那么更多的精力就应该放在如何去“选择”数据上。我认为,实验最大的好处就是数据完全是由实验设计阶段决定的,实验设计的好数据自然会更好的告诉我们所关心的答案。

忘了是哪位大牛在Handbook of Econometrics里面写的了,大意是“与其寻求更好的估计方法,不如寻找更高质量的数据”,言下之意就是在数据可以被“设计”而获得的情况下,我们可以把精力更多的放在实验设计而不是估计模型的选择上。我并不是一个纯粹的reduced form鼓吹者,相反,我是更欣赏structural model后面的经济学思维的。因此,在实验的方法被付诸实践之前,我更希望更多的按照一种经济学model的模式去考量这些问题,去更精巧的让实验告诉我们想知道的答案。除了社会实验的特殊性考量之外,必然的,我们没有任何理由抛弃现有的经济理论、尤其是微观经济理论去完全随意的“检查”几个变量之间的实验上的因果关系。且不论efficiency,社会实验的对象为参与经济活动的人、这一特质决定了我们在设计实验的时候便要充分利用现有对于人类行为的认识成果,更好的一步步设计实验的流程——可能不只是一次实验的流程,更多的是一环扣一环的一个个实验如何按部就班进行下去。一个动态的实验设计会更好的考量实验设计者对于经济学的理解,也是社会实验较之于费歇尔三原则下的自然科学实验、要求更高的方面之一。

Categories
互联网产业观察

怎能寄希望于不染青莲

我还是没忍住,索性说说对于百度最近被各种攻击的一些看法吧。

前段时间打开电视,习惯性的就调到CCTV 2 去了。我说过了,我还是经常看CCTV的,毕竟上面很多信息还是有用的。在我已然被隔离了一年不知道这些热播的电视剧说的是什么的今日,打开电视调到CCTV或许并不是一个坏选择。

然后很意外的看了很久对于Baidu的批判。虽然稍早的时候在网上看到大家说起这个事儿,但是还是抵不上自己看一遍来的深刻。貌似,前些年的时候也有过类似的报道。怎么,旧闻重提?

实话说,我原来是不用百度的,因为觉得上面的信息太繁杂,一个个辨认起来太麻烦,有的时候还是google更符合我的习惯。这就像开始的时候我是有点不信任淘宝的,因为淘宝上各种劣质品我未能幸免的被忽悠了好几次。但是现在我还是整天上淘宝买东西。为什么呢?因为淘宝商城确实是有很多好东西的,再说现在不是还有一个东西叫做“退货保险”么?怕什么!

说到百度,对我来说和早年的淘宝并无二致。这都是中国的互联网大环境在那里摆着的结果。你能指望一个企业来承担所有的社会责任吗?总是期望企业来“出淤泥而不染、濯清涟而不妖”,这真的公平么?为什么没人去要求工商部门更细致的监管?如果这些甄别信息的成本强加在一个企业身上,那么我们能期望的唯一结果就是一个更没有效率的搜索引擎。人家总是要养活自己的是不是?羊毛总得有出处。在经济学上,有个词儿大家可能并不陌生:市场失灵 (market failure)。说的就是一种类似于“劣币驱逐良币”的过程——当甄别信息的成本太高的时候,我们只能漠视劣质品充斥市场。

我还说说淘宝吧。记得当年第一篇正儿八经写的论文立题便立于机制设计,说的是淘宝各种交易机制为什么、在什么程度上有效。当年淘宝商城刚刚推出来,最大的区别就是进入门槛的提高,所以我写起论文来也很容易,一个机制设计上的改变就足以把劣质品驱逐市场。经过时间的检验,我感觉淘宝商城的认可度确实越来越高,也给予了一大批诚信的中小企业低成本进入市场并进行产品推广的平台。譬如我很钟爱的衬衣品牌:鲁泰。原来的时候要买鲁泰好不方便,要去实体店。去了跟营业员一聊来的都是回头客,因为鲁泰主要是做出口的,国内市场广告偏少,很多人都不知道这东西。再者它价位也确实有点偏高,很多人可能不觉得衬衣值这么多钱。最近发现鲁泰出了一个低端品牌(虽然不是我最钟爱的格蕾芬……)挂在网上卖,物美价廉啊!一下子很爽的买了很多很多东西,家里人也都很满意。所以,我对淘宝商城总是蛮欣赏的,这样的一个平台确实造福了很多中小企业和消费者。

现在回头看当年的那篇论文虽然稍嫌幼稚,不过分析问题的出发点我还是觉得蛮好的——首先要给定的是一个噪音很大的市场,各种优质品、劣质品混杂,有效的信号传递实现起来就比较困难了。所以,合理的机制设计是在保证信号的一定传递水平下、最小化社会成本的机制。这里的社会成本更多的是一种和市场上信息是完全的理想状况相比下、效率损失上的概念。毕竟,制度都是有成本的,这个成本则需要用一个机会成本的概念来衡量和审视。

回到百度。作为一个企业,它的价值在哪里呢?当然,这里立足于我自己的价值观,一个企业的价值取决于其创造的社会价值。简而言之,我们可以接受完全没有百度的日子吗?(假设没有其他的完美替代品)。如果有比百度更有效率的企业,那么显然的它早就占据市场了(剔除各种制度因素和进入壁垒)。百度固然不完美,但是它竞价排名本身的机制并不见得有错。

刚刚看到周涛的一篇文章:《科技日报》关于搜索信息规范与公平性的采访。他的大多数观点我还是赞同的,虽然从技术/算法角度出发的意味很强。我先承认一点很无耻的,相比于公平,经济学更关心效率。当然在效率的定义上我们可以考虑进去公平的因素,这里可能就牵扯到一个社会效用函数的问题:你怎么来衡量一个社会的效用?简言之,你觉得什么是公平的?行为经济学从个体的角度出发有一些涉及“公平 (fairness)”的模型,大致的做法就是在个体的效用函数里面引入一个项来考虑别人行为给自己带来的效用,有点从“外部性”角度出发的感觉。那么对于百度,如果我们假设它是一个理性的经济人(经济个体),那么当外界对它的质疑真正影响到它的收益的时候,自然它会选择一些新的做法。所以从我的角度来说,开发新技术或者更简单的实施新算法(譬如周涛提出的个性化搜索)固然重要,但是这样的运营的成功大概是远远离不开一个合理的机制设计的。

最简单的机制设计理念从我的角度而言可以追寻到科斯定理,在这里或许可以阐释成不同的“物权/收益所得权”分配会造成最终结果的效率不同。这里这么说科斯定理,前提的假设自然是交易成本是存在的。在一个噪音很大的市场,交易成本非但不能被忽视、而且要足够的重视起来。现在我们所面对的互联网市场或许就是这么一个噪音很大的市场。可用的信号诸如信誉也不再一如既往的被人认可(譬如蒙牛的三聚氰胺、山西陈醋的勾兑),新入市场的个体更加是难以建立自己的信誉。那么,怎么能期望不通过机制设计就获得一个相对而言有效率的市场结果呢?

我并不是一味的鼓吹机制设计的重要性。从百度来说,如果他换算法,自然就是对市场机制的一种改变。只是除了算法的改变,还有一些其他的机制设计可能可以被实行。只是百度面临的问题不像淘宝那么直接(后者背后有具体的实物交易),所以我一时还真不知道什么样的机制对于百度这种状况是最佳的、又有什么措施是实践中可以实施的。有些东西或许真的要等待实验结果。

最后,还是说一句,别一味的指责百度了,这不是它一个人的错……就像我们去买地摊货,回来发现不好用或干脆不能用,你会第二天去找城管说立马给我取消这个夜市吗?毕竟还是有需求有供给的。如果大家都不是抱着占小便宜的心理(譬如那些搜索“信用卡套现”的,自己就明知违法吧?),那么很多时候提高警惕是可以防止被骗的。还有,新闻报道为了吸引大家眼球往往是非常有选择性的采取个例。极端个例当然是值得我们警示的,但也不用一拍子拍死所有人哈!在这个混乱的市场环境中,消费者本身也应该有自己的判断力和理智,不要太贪小便宜。天下怎么会有那么多免费馅饼呢是不是?我原来就很喜欢看淘宝社区的防骗技巧,蛮受用的!毕竟人多力量大,群众的眼睛是雪亮的!