Categories
事儿关经济 互联网产业观察

大数据的潮流?

一边是流浪的心,一边也是在思考一些现实中的问题。还是感谢昨天那位朋友耐心的跟我扯了一下午,说到了一个很有意思的话题,“我们为什么需要海量数据”?或者说, why and how does big data make a difference?

当时说的统计/计量分析的应用很简单,无非是做一些销量、价格弹性和资源投放的预测与优化罢了,典型的咨询业务。然后我就好奇的问了一句数据源,无非是nielsen或者iresearch的市场调查数据之类的,或者厂商自己的一些销量和价格数据。这些数据往往被aggregate到一定的程度,所以一般都是long panel(T>N),以城市为单位之类的。

这样的数据量,肯定没法跟互联网或者电商的individual records相比。百万或许都是小数目。当然咯,我们多少也会把这些原始数据做一个aggregate,比如以每人每日为单位(当然单位的选择取决于具体项目的关注点),但是大多数还是wide panel,N>>T。这两种panel data的(计量)模型显然就不一样了。一个会更多的沿袭time series的分析路子,什么auto-regression、unit root之类的;另外一个要沿袭的更多是cross-section的方法,关注大量个体的特性。

对计量的一个争议就是 ATE (average treatment effect),尤其是做data mining的那些人。明明individuals之间千差万别,计量怎么可以这么简单的取个平均呢?不过一个辩护就是,关注的问题太不同了!data mining很多时候关注的是针对每个个体选择适当的信息传递,而计量模型背后往往跟随的是一个统一的strategy or policy making。毕竟政策不可能太细化到每个人身上,针对这一点我现在越来越认同某个计量学家对于consistency的评价了:

(大意)我喜欢计量经济学,正是因为他对于政策制定的强力支撑。

况且,还有quantile regression可以做一个完整的系数分布估计呢!加之各种bayesian方法的引入……计量变得越来越宽容和好玩了。

最近思喆大哥发了一句感慨

要会技术(统计、机器学习、可视化、最优化),要懂市场(营销,产品,客户行为,渠道),要懂沟通(同事协同,上级汇报,对外呈现),工具要熟练(SQL、Excel、SAS、ppt),公司战略还要懂点,没准还要带团队,要懂管理……。OMG,我在说什么,不是MBA,是数据挖掘专家

可见现在一个资深的数据分析专家活得多么艰辛(题外话,我等consultant活得也格外艰辛啊,这些加上无穷无尽的出差 -_-|| ),而我后面跟的一句是“市场发展不成熟,分工不明确,相关领域人才太少的恶果”。没办法,只做模型和分析远远不够啊,太少人可以看懂并完美应用了,所以搞分析的不得不自己卷起袖子上阵,即当爹又当妈……

那么说到底,为什么现在big data这么火?为什么 quantitative analysts 对数据源这么 obsessing 呢?我的理解是,

1. 大数据可以很容易的aggregate到适当的level,从而灵活适应不同分析目的需求。而已经整理好的数据则无法逆向变通(既实话又废话)。
2. 大数据使得很多大样本的性质可以直接应用,需要依赖的模型假设大大放松,从而模型的选择可以更多的贴近分析目标而不是过多考虑数据本身的性质。
3. 大数据可以进行data mining(又废话了),从而不仅仅服务于单一的policy making,还可以实现定点、极端个性化的信息投递。说白了,就是既可以分析群体特性,又可以兼顾个人特质,像大海一样宽广的胸怀包容着不同分析的目的。
4. 大数据往往是第一手数据,格式整齐(要不搜集成本过高也没法搜集)、数据真实、定义明确,很容易进行data cleaning(一个反例:跟统计年鉴打过交道的童鞋们应该知道那东西有多么混乱,统计口径什么的千差万别,数据来源也未必可信)。这样的数据只要简单的编程处理就可以了,把研究人员从搜集数据的辛苦低层次劳动中解脱出来。
5. 大数据往往包含着传统数据源所无法提供的信息,比如GPS数据可以直接用于跟踪个体的行动路线。这意味着统计分析的结果可能可以被更加灵活的应用(idea -> result -> implementation)。关于这一点,Frank曾经发给我一个很好的summary,说的是大数据为发展(经济学)带来的新机遇:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development
6. 最后一点比较自私的,social network的数据往往都是大数据(得有links嘛),所以既然我的研究兴趣在那里,自然会更多的关注大数据。

那么,大数据的对于分析人员挑战在哪里呢?
1. 从噪音中找到有用的信息: 正如前面所说,大数据包含了太多个体的信息,所以有时候很难找到一个简单的总体指标。如何从噪音中挖掘有用的信息,对于统计分析专家的思路清晰要求度非常之高(Frank兄曾经对此做过一些简单的批判,业界的一些报告有时候无奈的直接把数据aggregate了,丢失了部分有用信息)。而我总觉得,对数据背景一定要有所了解才可以,不能是简单的大海捞针,还是要有直觉指引方向的。(只针对业界数据,制药行业之类的实验数据我没接触过,没有感觉~)
2. 大数据对于建模者的学术训练背景要求更高: econometrics, data mining等等统计分析方法,及其结合,往往意味着分析者需要有着良好的数据直觉。而这一切,往往离不开一个solid的学术训练背景。最简单的,如果不会C或者python之类的编程,不会R之类的统计软件,那对于大数据往往就在data cleaning阶段就束手无策了。而传统的数据集,我知道很多人就是excel手动做数据清理,然后扔到stata之类的软件中调用相关的命令(或者可以称之为函数)就可以了。大数据分析的门槛在提高。
3. 数据敏感性和隐私: 大数据往往来源于个体,这也就意味着data access往往被控制的很严,不可能向所有研究者开放。那么,研究者往往只能接触一个领域、一个公司的数据,而无法是非常全面的行业数据(比如,通信数据你要么有移动的,要么有联通的,不太可能移动联通的同时都给你)。这也多少造成了分析只能从一边入手(依赖双方数据的,比如game theory的实证分析,可能会有些困难)。

暂时先想到这些,或许日后还会补充吧,欢迎各种批判(我只是小小的井底观天而已,加上各种眼高手低、站着说话不腰疼)。其实有的时候,想想自己明明是 more into theories than empiric,但是也就被各种“拉上贼船”下不来了。至少我还是坚信,更难积累的是analytical sense而不是skills,后者更依赖时间而前者多少对天赋还是有些要求的吧。虽然也说,很多时候还轮不到拼天赋……

(p.s. 发现新版WP的全屏编辑模式很好用啊,很简洁明了令人可以专注写作!)

Categories
互联网产业观察 读书有感

回顾了一下IT业发展史

如果说现在IT行业的大潮流是什么,除了云计算之外,怕就是移动互联网了。从来没有一个时期像现在这样,手机、电脑、平板相互之间如此相似。所有的终端似乎都要联入互联网,才显得有生命力(好吧,我那个非智能手机啊,呵呵)。Any time, any where,网络确实改变了信息传输的效率,和生活模式。

所谓忆苦思甜,今天就回顾了一下过去一个世纪的互联网发展史,或者简单的说,一系列的公司成长史和消亡史(每一次的心潮澎湃和英雄暮年)。其实大多数耳熟能详的公司的小故事都听过,但是若是说整理起来一起看一下,还真不曾这么系统过。最近一位制造业的朋友推荐了一本《浪潮之巅》,拖了一个多月没翻,但是再不读完我这还怎么自诩“弄潮儿”啊,于是今天干脆一口气读完了。

可以说,没有什么惊喜,大都是一些熟悉的故事。但是有意思的是,作者把这些故事用自己的脉络串联起来的方式。一个个IT行业下细分的领域,一家家高处不胜寒的公司……一个个数过来,还真是蛮有意思的。我读过之后,没什么太多深入思考的地方,可能这本书还是太偏技术了,更像是一个“雾中看花”的技术翘楚写出来的切身感受。涉及到公司营运、资金管控等等所用的角度和描述方式,就和我的兴趣点有所偏离了。或许现在有些麻木了,心更想寻求一种安定和宁静了。

不过,还是很好的,静下心来看待IT业这么一波波潮来潮涌、月缺月圆故事的好机会。打发时间还是不错的,至少还是可以小小励志一下的、免得太消沉,呵呵。

Life, will be better, when shared with people who have the same interests :) 求同存异,分享各个行业的辉煌,学习自己所未曾接触的经验,总是有趣的。最近真的在感叹,海阔凭鱼跃,天高任鸟飞,却也是林子大了什么鸟都有啊!乐在探索。

Categories
事儿关经济 互联网产业观察

从经济理论到商业模型

宏观经济理论比较难以直接转换为微观的商业模型,就不说了,毕竟关注的问题完全不是一个层面的。那么微观经济学呢?一个什么样的理论可以转换为一个可实践的商业模型呢? 除了金融之外?

这可能是经济学院和商学院最大的区别吧~就像物理和工程的差别。从我的感觉,最普遍的就是各种拍卖理论和模型,但是这个就有点鸡生蛋、蛋生鸡的味道了。比如Groupon,这种互联网时代的团购模式是不是我们以前所未曾闻及的?那么,在每一个传统的商业模式搬迁到互联网这个平台的时候,我们是不是可以利用信息的优势(用户注册资料、购买记录、地理位置等),来针对传统商业模式的弱项有所弥补呢?

电商在过去的2011年为广大群众贡献了无尽的福利,这个看看双11和双12抢购就不用多说什么了吧?各种烧钱烧的没完。从某种程度上,我甚至认为他们对平抑物价做出了杰出贡献……当然这个是暂时的,可是是什么样子的力量让各大电商这么火拼呢?我个人认为,还是信息优势和物流瓶颈突破,带来的电商较之于传统卖场库存、场地租金等等大幅下降的优势和对于顾客的准确感知。

作为一个有羊毛一定要蓐的半家庭主妇,我就很直接的在淘宝商超买掉了柴米油盐酱醋茶……除了肉和蔬菜牛奶等这种暂时没法买的之外。一袋大米,比1号店还便宜,联想起1号店每笔单子都亏,我就更开心的蓐淘宝的羊毛了。真慷慨啊,还暂时只有上海可以享受此等福利,真是送到门口的肥肉啊。其实,好吧,我只是觉得一个人去超市扛一袋5kg的大米太沉了,还是送货上门的好啊。

随着信息流通的加快,不可避免的,各种传统的商业模式都要面临着变革。这个过程中,经济理论可以发挥多少作用呢?我们对于information和noise的分析、我们对于博弈的分析、对于交易成本的分析,一个个是不是都可以重新在信息充分流动的情况下考察是不是可能突破传统的束缚、有一种新的均衡结果的存在。为了达到一个新的均衡,我们又应该如何设计一个对应商业模式,来充分挖掘信息的力量,创造信息租和利用信息差,赚取信息的价值?

最近在一直想这个问题,或许过去对于商业模式的关注太专一的从经济的角度出发了。这里面其实不论是academic research还是business trials应该都是可以有所尝试的。如果说团购燃烧起了传统商业模式在信息时代的第一场变革,那么后续的,应该还有更多的爆发空间——在泡沫破灭之前,需要创造更多的实质性的支撑。

最浅的,从最直接的信息流通的层面、营销,也会经历一场变革吧。只是没有它背后实质性的商业模式的变革那么深刻的有趣。

Categories
互联网产业观察 经济、IT观察与思考

不一样的亚马逊和Amazon

我这篇文章倒不是想给Amazon做什么宣传,而只是借机说一下最近的一些最简单的购物经历,顺便感慨一下制度、诚信的缺失。

可能在国内被各种卖家欺骗惯了,尤其是在淘宝早年的时候,购物一般都是额外的小心的。只是前几天还是不小心上了一次当。要做学历认证嘛,要翻译件嘛,还不能自己翻译,就找了一家很近的翻译公司做这个事情,价格也不便宜,但是想着事情那么多还是花钱买时间吧,于是就爽快的付了翻译费。然后翻译件拿到了,跑到认证地点去,人家却说这个翻译件不符合要求^#%#。无奈啊,只能又掏钱去做一次翻译,哗哗的人民币流出去还是觉得心疼的,毕竟自己赚的钱知道赚钱的辛苦之处啊。而后自然不甘心,去找第一家翻译公司,百般推卸责任,后来直接粗鲁的视而不见。我也没有太多的时间跟他们耗着,于是315打个电话,又想到当时是用的信用卡所以也找到了信用卡发卡行,毕竟国外的信用卡消费还都是有保障的,可以在服务不到位、商家诚信有问题的时候通过银行交涉退款什么的。

315自然是两边打个电话说了一遍,然后就一副事不关己高高挂起,把皮球踢给其他部门。呃,也罢,本来也没指着消费者权益被他们保护。信用卡发卡行自然是态度好的多,一路绿灯帮我调单之类的,但是最后也很无奈,通过银联的交易他们也没有办法退款什么的,只能按照我的投诉做一个不良记录,但商家还是建行那边的,他们也只能反映给银联。这个,也罢了,维权成本这么高的情况下我也犯不着发什么律师信之类的。权当花钱买教训了。

也许是在欧洲太习惯了人们之间默认的诚信,没有什么怀疑的。同时,这几天同样发生在我身上的另一件事则让我觉得实在是太过于鲜明的对比了。8月份的时候在Amazon买了两本英文书,当时怕丢选的还是稍贵一点的运输方式,本来说是预计9月底能寄到,结果现在都还没有收到。忍不住,就给Amazon发了个Email,看看能不能有什么音信,至少能给我个包裹号码之类的跟踪一下嘛。结果很快Amazon就给我回邮件了,还主动的退还了25刀的运费到我的信用卡里面!信中各种抱歉、还说一个月之后再没有收到就可以帮我重新寄或者退款之类的。我只是昨天忍不住小小的抱怨一下嘛,连电话都懒的打,没想到态度居然这么好!

其实倒也不意外,联想到7月份的时候换新Kindle的百般顺利,当时就对Amazon刮目相看。当我爸妈看到我几个电话就很快的拿到一个全新的kindle的时候,那种惊讶啊!是啊,在国内买个东西要是想退货,那难免和销售人员口水交涉一番。哪有Amazon这种顾客为上的服务态度。

除了态度之外,背后更多的是一些诚信问题。还是说美国好了,一系列的诚信体制让每个人、公司都知道违反诚信的高昂代价。信用卡的核心是信用,而不是国内理解的“透支”功能,否则不过是一张简单的贷记卡而已。其实我对招商银行的印象蛮好的,信用卡一直用的很舒服,但是客服也跟我很无奈的承认在国内信用卡机制的不健全和跟国外的差距,我们也只能容忍和谅解。我只是百无聊赖的抱怨了一句,信用卡的信用评分什么的对我们持卡人有这么全面严格的要求,却对商户没什么要求,真的是不公平啊!

联想到最近淘宝商城热热闹闹的“起义”活动,我就觉得真的是不能不涉及诚信体制的问题了。这东西,本科的第一篇论文就论及与此,没想到现在还在这么热热闹闹的上演。我从来都是支持淘宝提高进入门槛的,这才有利于过滤掉一些竞争力不足、打诚信擦边球的商家(虽然相比于完美市场会有效率损失,但这正是信息不对称下我们为信息付出的成本)。很多人不敢去淘宝买东西,我就说一句很简单的,去淘宝商城嘛!至少,不会有什么太多的假货。当然,商城本身的其他问题就不多说了,也难怪最近这么大力的整合凡客等垂直B2C网站。现在,淘宝已经拿自己的顾客资源来卖钱了,可见这么多年的市场培育还是有价值的。

只是,太多太多事情折射出来的都是背后的诚信体制的缺失:人们习惯了有空子就钻、有便宜不占白不占。如果说中国经济增长未来有什么大的阻力,我觉得诚信体制可以算是一个。良好的诚信体制有利于市场资源科学合理的流动,而诚信体制的缺失只会让这个市场越来越“柠檬”,资源的配置被扭曲、买卖双方的交易成本被大幅增加。虽然诚信体制对于越小的经济活动越关键,但是不积小流、无以成江河,底层微观经济活动诚信的缺失,必然可期宏观层面的更多问题。

至于为什么我说“亚马逊”不是Amazon,大家可以搜搜最近卓越亚马逊的新闻,貌似也有诚信危机啊!果然,什么国际公司到了中国都是难免“常在河边走,哪有不湿鞋”?

不过,至于华尔街,那就另当别论吧。少数聪明人认为自己可以玩转地球,自然有童话破灭的时候。

Categories
互联网产业观察

怎能寄希望于不染青莲

我还是没忍住,索性说说对于百度最近被各种攻击的一些看法吧。

前段时间打开电视,习惯性的就调到CCTV 2 去了。我说过了,我还是经常看CCTV的,毕竟上面很多信息还是有用的。在我已然被隔离了一年不知道这些热播的电视剧说的是什么的今日,打开电视调到CCTV或许并不是一个坏选择。

然后很意外的看了很久对于Baidu的批判。虽然稍早的时候在网上看到大家说起这个事儿,但是还是抵不上自己看一遍来的深刻。貌似,前些年的时候也有过类似的报道。怎么,旧闻重提?

实话说,我原来是不用百度的,因为觉得上面的信息太繁杂,一个个辨认起来太麻烦,有的时候还是google更符合我的习惯。这就像开始的时候我是有点不信任淘宝的,因为淘宝上各种劣质品我未能幸免的被忽悠了好几次。但是现在我还是整天上淘宝买东西。为什么呢?因为淘宝商城确实是有很多好东西的,再说现在不是还有一个东西叫做“退货保险”么?怕什么!

说到百度,对我来说和早年的淘宝并无二致。这都是中国的互联网大环境在那里摆着的结果。你能指望一个企业来承担所有的社会责任吗?总是期望企业来“出淤泥而不染、濯清涟而不妖”,这真的公平么?为什么没人去要求工商部门更细致的监管?如果这些甄别信息的成本强加在一个企业身上,那么我们能期望的唯一结果就是一个更没有效率的搜索引擎。人家总是要养活自己的是不是?羊毛总得有出处。在经济学上,有个词儿大家可能并不陌生:市场失灵 (market failure)。说的就是一种类似于“劣币驱逐良币”的过程——当甄别信息的成本太高的时候,我们只能漠视劣质品充斥市场。

我还说说淘宝吧。记得当年第一篇正儿八经写的论文立题便立于机制设计,说的是淘宝各种交易机制为什么、在什么程度上有效。当年淘宝商城刚刚推出来,最大的区别就是进入门槛的提高,所以我写起论文来也很容易,一个机制设计上的改变就足以把劣质品驱逐市场。经过时间的检验,我感觉淘宝商城的认可度确实越来越高,也给予了一大批诚信的中小企业低成本进入市场并进行产品推广的平台。譬如我很钟爱的衬衣品牌:鲁泰。原来的时候要买鲁泰好不方便,要去实体店。去了跟营业员一聊来的都是回头客,因为鲁泰主要是做出口的,国内市场广告偏少,很多人都不知道这东西。再者它价位也确实有点偏高,很多人可能不觉得衬衣值这么多钱。最近发现鲁泰出了一个低端品牌(虽然不是我最钟爱的格蕾芬……)挂在网上卖,物美价廉啊!一下子很爽的买了很多很多东西,家里人也都很满意。所以,我对淘宝商城总是蛮欣赏的,这样的一个平台确实造福了很多中小企业和消费者。

现在回头看当年的那篇论文虽然稍嫌幼稚,不过分析问题的出发点我还是觉得蛮好的——首先要给定的是一个噪音很大的市场,各种优质品、劣质品混杂,有效的信号传递实现起来就比较困难了。所以,合理的机制设计是在保证信号的一定传递水平下、最小化社会成本的机制。这里的社会成本更多的是一种和市场上信息是完全的理想状况相比下、效率损失上的概念。毕竟,制度都是有成本的,这个成本则需要用一个机会成本的概念来衡量和审视。

回到百度。作为一个企业,它的价值在哪里呢?当然,这里立足于我自己的价值观,一个企业的价值取决于其创造的社会价值。简而言之,我们可以接受完全没有百度的日子吗?(假设没有其他的完美替代品)。如果有比百度更有效率的企业,那么显然的它早就占据市场了(剔除各种制度因素和进入壁垒)。百度固然不完美,但是它竞价排名本身的机制并不见得有错。

刚刚看到周涛的一篇文章:《科技日报》关于搜索信息规范与公平性的采访。他的大多数观点我还是赞同的,虽然从技术/算法角度出发的意味很强。我先承认一点很无耻的,相比于公平,经济学更关心效率。当然在效率的定义上我们可以考虑进去公平的因素,这里可能就牵扯到一个社会效用函数的问题:你怎么来衡量一个社会的效用?简言之,你觉得什么是公平的?行为经济学从个体的角度出发有一些涉及“公平 (fairness)”的模型,大致的做法就是在个体的效用函数里面引入一个项来考虑别人行为给自己带来的效用,有点从“外部性”角度出发的感觉。那么对于百度,如果我们假设它是一个理性的经济人(经济个体),那么当外界对它的质疑真正影响到它的收益的时候,自然它会选择一些新的做法。所以从我的角度来说,开发新技术或者更简单的实施新算法(譬如周涛提出的个性化搜索)固然重要,但是这样的运营的成功大概是远远离不开一个合理的机制设计的。

最简单的机制设计理念从我的角度而言可以追寻到科斯定理,在这里或许可以阐释成不同的“物权/收益所得权”分配会造成最终结果的效率不同。这里这么说科斯定理,前提的假设自然是交易成本是存在的。在一个噪音很大的市场,交易成本非但不能被忽视、而且要足够的重视起来。现在我们所面对的互联网市场或许就是这么一个噪音很大的市场。可用的信号诸如信誉也不再一如既往的被人认可(譬如蒙牛的三聚氰胺、山西陈醋的勾兑),新入市场的个体更加是难以建立自己的信誉。那么,怎么能期望不通过机制设计就获得一个相对而言有效率的市场结果呢?

我并不是一味的鼓吹机制设计的重要性。从百度来说,如果他换算法,自然就是对市场机制的一种改变。只是除了算法的改变,还有一些其他的机制设计可能可以被实行。只是百度面临的问题不像淘宝那么直接(后者背后有具体的实物交易),所以我一时还真不知道什么样的机制对于百度这种状况是最佳的、又有什么措施是实践中可以实施的。有些东西或许真的要等待实验结果。

最后,还是说一句,别一味的指责百度了,这不是它一个人的错……就像我们去买地摊货,回来发现不好用或干脆不能用,你会第二天去找城管说立马给我取消这个夜市吗?毕竟还是有需求有供给的。如果大家都不是抱着占小便宜的心理(譬如那些搜索“信用卡套现”的,自己就明知违法吧?),那么很多时候提高警惕是可以防止被骗的。还有,新闻报道为了吸引大家眼球往往是非常有选择性的采取个例。极端个例当然是值得我们警示的,但也不用一拍子拍死所有人哈!在这个混乱的市场环境中,消费者本身也应该有自己的判断力和理智,不要太贪小便宜。天下怎么会有那么多免费馅饼呢是不是?我原来就很喜欢看淘宝社区的防骗技巧,蛮受用的!毕竟人多力量大,群众的眼睛是雪亮的!