Categories
互联网产业观察

互联网电商真的降低了搜寻成本吗?

(本文纯属个人观点)

最近买东西的时候,越发地怀疑现在搜寻成本是不是越来越高了。电子商务平台层出不穷,而对于自己不熟悉的领域,买东西也越来越困难。同质化的商品还好,比如洗衣粉卫生纸,这东西差别不大,随便买买用就是了。异质的商品就惨了,比如打印机,我大致只知道激光和喷墨的区别,但是具体到不同的激光打印机,我就一片茫然了。在各大论坛翻帖子,试图学习不同的术语,然后再去各家网站比较价格。或者,找个比自己懂行的朋友,直接问人家的推荐。在现代生活高度依赖工业品的今天,这种搜寻好像是无穷无尽的。今天是打印机,明天是缝纫机,后天是水龙头,大后天是吸尘机...美国网站喜欢搞限时deal,中国网站喜欢各种复杂的领劵,一头扎进去都不知道那一个性价比更高。

“杀熟”更是一个让人防不胜防而感叹世界不公的招数。比如,在美国出门租车,一大片网站看花眼,各种暗藏的收费(比如额外司机费、额外里程费、异地还车费、变更费)防不胜防。消费者往往是没法承受过高的搜寻成本的,于是对于可能没那么在意的东西,就宁愿被平台剥削了。比如我知道一些比较忙的朋友,买东西永远就是在amazon里面输入关键词,然后看都不看、直接买搜索结果第一个...

大网站靠着流量,或是巧立名目或是强取豪夺,总不能让人信服搜索第一名的就是最适合自己的。付费的简单粗暴,而免费的排名也是可以靠资金做出来的(刷单),连评价都不知道有几成水军,这日子仿佛比以前线下更难了。连费时费力的直播卖货都能搞出这么大一个产业,实在是让人惊叹这其中的高昂的搜寻成本。最近看到一个说法,互联网就是广告业。我不敢苟同,因为在我陈旧的观念中,互联网只是一个信息传递的加速器,它只不过是以前既有的交易模式的提速。不过或许网络效应超出了我以前的理解,当流量聚集在几个全国性网站、而不像以前那样线下交易有很明显的区域化特征的时候,或许搜寻成本的组成也被重新定义了。消费者被大网站绑架,新的商品很难不通过付费的形式吸引到消费者的注意力了。以前“口口相传”的口碑营销,也渐渐变成了网红的口碑,信息的集中度可能远远超出人们的想象。

营销本身也是个有规模效益的事儿。以前电视广告的时代,每年央视黄金时段的拍卖王,动不动上亿的广告费,都是人们茶余饭后的谈资。现在互联网虽然降低了营销的入门门槛——就算你只有十块钱,也可以在搜索引擎上买关键字——但却可能提高了营销有效的门槛,这十块钱可能是纯打水漂了。不说广告,只看免费的信息传播,现在还有多少人可以发现博客的内容?很多人不得不转向公众号。就算有博客,大家也是费尽心力在各个平台上宣传,然后趁着平台还允许外部链接,引流到自己的博客上。但是随着rss的日落西山,又有什么手段可以留存住这些读者呢?其实很难了。

不仅仅对于内容创作者来说很难,对于内容的搜寻者也难。最近几年明显地感觉到,利用搜索引擎搜寻出来垃圾信息的比例不断加大,甚至于找到相关的信息都要感到幸运。以前不是的,以前各种博客给予了互联网极大的多元化的信息源。而且这种信息的垃圾化不仅仅是在网络极速更新换代的中文世界。就算是英文搜索,很多时候搜出来的也都是重复而无用的,甚至有各种明显恶意碰瓷关键字的。这对于真正有用的信息的创作者来说无疑是毁灭性的打击。恶性循环,大家被逼到一个个封闭的小圈子里面去互通有无,进而造就了一个个无形的新领域的触及门槛。

那么这一波受益的是谁呢?以前经济学有传统的“品牌溢价”或者“声誉溢价”,就是说人们为了信任的品牌是愿意给一样质量的商品多付钱的。现在这种溢价依旧存在,只是可能不仅仅是品牌名声本身,而是借助各种营销渠道体现了——譬如网红主播来带个货,一模一样的辣椒酱,可能就瞬间价格翻倍。随便抓张图、看一眼过去十几年的互联网广告行业增长,动不动20%的增幅,真的只是传统广告业的转移吗?

搜寻成本过高其实并不是一件好事,因为某种意义上,这是一个社会的净消耗,阻碍了资源的有效配置。有人会说,竞争市场会终究优胜劣汰,把这个成本降下来。而竞争市场靠的是众多的参与者和较低的进入门槛。一旦形成垄断,那么受益的只是垄断者。如果垄断者占据的是交易平台, 那么生产者和消费者都要为平台交税。这和给政府交税还有不同——至少后者是一个换取公共服务的明码合同,而平台的“交易税”甚至不能保证交易的公平,赢者通吃怕是没那么好看吧。

其实有个很简单的测试。在google搜索的时候,假如最上面的ads和下面的正常搜索的结果是一样的,你会不会自觉跳过付费链接而去点免费的呢?

Categories
经济、IT观察与思考 读书有感

从网上交易征税争议说起

这几年一直有对网上交易(中小卖家)是否征税的舆论争议,随便一搜新闻,淘宝就是一个箭靶子——

美帝的eBay日子也不好过...

说到这里,就不得不去翻一下美国税法对于销售税的规定。

--------------下段比较罗嗦,不关心细节这可以跳过-----------

这要起源于上世纪98年,克林顿还在的时候,通过的一项《互联网免税法案》,英文原名是Internet Tax Freedom Act。从wiki上抄一下法案的基本内容:

This law bars federal, state and local governments from taxing Internet access and from imposing discriminatory Internet-only taxes such as bit taxes, bandwidth taxes, and email taxes. The law also bars multiple taxes on electronic commerce.

简而言之,就是联邦和地方政府都不得对互联网接入征税,且不得对比特、带宽和电子邮件征税。翻了翻原始法案文件,第720页开始,到后面说了multiple taxes的定义:

IN GENERAL.—The term ‘‘multiple tax’’ means any tax that is imposed by one State or political subdivision thereof on the same or essentially the same electronic commerce that is also subject to another tax imposed by another State or political subdivision thereof (whether or not at the same rate or on the same basis), without a credit (for example, a resale exemption certificate) for taxes paid in other jurisdictions.

简单理解一下(sorry,我不是学法律的,很可能不准),就是多州不得对一项电子商务交易重复征税。2007年的时候,这项法案延续到2014年11月1日(Internet Tax Freedom Act Amendment Act of 2007)。而实践上,大多遵循1992年的一项最高法院的裁决

In Quill Corp. v. North Dakota, the Supreme Court ruled that a business must have a physical presence in a state for that state to require it to collect sales taxes.

-------------罗嗦完毕-------------

也就是说,只要没有实体店,州政府就不能强制征收消费税。有趣的就是2013年,市场公平法案(Marketplace Fairness Act ),主要内容就是对虚拟商店也要征收消费税或者使用税。众议院目前还没表决。

[声明]:下面关于eBay的知识均来源于互联网及其他公开渠道,与本人工作无关,在这里只是陈述。所有结论由文章作者负责,不代表公司观点。

那在eBay上,现在的销售税是怎么征收的呢?

Normally buyer do NOT pay tax on eBay unless the following 3 criteria all meet:

  1. The seller is a Business seller.
  2. The seller has a physical presence in buyer’s shipping address state.
  3. That state charges sales tax.

也就是说,只有从eBay上的在买家所在州拥有实体店的商业卖家那里买东西、且该州征税,那么消费者才需要为此付税。一般的案例就是Macy‘s或者bestbuy这样在eBay上开网店的。所以一般在eBay上买东西的时候,结帐是看不到sales tax这一项的(美国都是价外税,如果有销售税会在账单上写明的)。这么看,线上卖家就比线下卖家多了免付税这个优势(虽然征税是直接针对消费者征收的,但是税负的实际承担者取决于供给和需求曲线的弹性)。直白的讲,如果我在网上买一件东西包邮需要$100,家旁边的店也卖$100,但是我在店里买需要交9%的税(以加州为例),那么如果不急用,我为啥不在网上买呢?

终于铺垫完了背景,现在来看AER 2014年1月刊的一篇paper:

Einav, Liran, et al. "Sales Taxes and Internet Commerce." American Economic Review 104.1 (2014): 1-26.
这篇paper主要就是探讨,当某个州提高消费税率的时候,对实体店和网店的影响是怎么样的。他们用的只是eBay的数据,结论是:
every one percentage point increase in a state's sales tax increases online purchases by state residents by almost 2%,while decreasing their online purchases from state retailers by 3.4%.
也就是说,消费税每上升1%,会导致该州居民网购增加2%、从本地零售商网购减少3.4%(因为需要交税)。下面看一下这个结论是怎么一步步得出的。
首先看一下美国各州的消费税率:
2014-02-12 14_23_01-SalesTaxes(1).pdf - Adobe Reader

Categories
互联网产业观察 读书有感

网购中新品牌更难出头?

前几天看到最新一期的 American Economic Journal: Microeconomics 出来了,扫了一眼目录然后发现有两篇papers挺好玩的。也可能是现在人在电商的缘故,对online marketing格外的敏感,所以先拎出来一篇对比在线个购物和传统购物中新品牌探索的论文,一睹为快,顺便忍不住和大家分享一下:

Pozzi, Andrea. Shopping Cost and Brand Exploration in Online Grocery, American Economic Journal: Microeconomics,4(3), p96-120, 2012

AEJ版的米有权限下不到(有权限的童鞋帮忙给我发一份),去作者网站上找到了working paper版。有兴趣的不妨去下个PDF看看原文,虽然有点小长(econ的论文难得见到50页以下的-_-||,命苦啊)。

---------一点经济学理论背景知识----------

相关信息提供结束,下面开始全力关注正文。网购出现之后,由于其一堆让人欣喜的特性,受到广大人民群众的广泛欢迎。作为一个从高中时代就开始支持电商的孩纸,我个人网购的主要理由如下:

  • 便宜:相比于实体店,网店房租等固定成本投入低的多,所以价格上自然有所让利。加之现在电商之间竞争惨烈,消费者自然可以期望一个更接近于博弈均衡价格的价格(基本就是,会稳定的趋近于成本)。优胜劣汰的信息丰富下的完全竞争市场模型嘛。
  • 选择丰富:实体店往往受限于店面面积,能陈列的就那么几个牌子。而网购则不同,可以一下子把更多的东西都放在上面,任君挑选。有的时候可以很方便的买到一些平时便利店买不到的小东西,各种造福生活。当然还有各种限定版或者水货之类的?
  • 便于比较:比较一方面是价格,另一方面还有商品的评价。比如买电器,在国美苏宁基本上就是推销员口若兰花,根本不知道一件东西到底有什么缺点(比如西门子关不上冰箱门)...而在电商网站,可以很容易的看到其他购买者对于商品的评价,各种实拍图什么的,有利于作出更理论性的购买判断。再者,选定了款式之后,价格比较也是很容易的。呃,作为一个有经验的网购者,基本上不会出现严重的被欺骗交易——网购市场一分钱一分货的道理还是一直存在的,所以我很少会买特别廉价的东西,还是习惯于一个reasonable的折扣(相较于实体店)。

我曾经很关注网购市场,尤其关注的是其中的交易机制设计。这个名词听起来挺专业的感觉,其实不过是一些很细微的规则:比如,淘宝商家商品上架要不要收费?商家要做哪些身份验证?商家的声誉是怎么积累的?商品打分评价是怎么计算的(豆瓣现在对电影图书等评分系统有了更好的算法调整,避免过高/过低的个别评价干扰整体结果)?退货换货制度是怎么设计的?保险又是怎么规定的?

这些看起来细微的东西,累积起来,就在一定的时间范围内决定了一个市场的生态状况。简单的说,每一次淘宝对于收费等等的调整都会引起很多商家的地震,优胜劣汰本来无可厚非,只是这其中牺牲的卖家有的时候还真让人感觉制定规则之人的凶残~ 嗯,淘宝需要经济学家,嘻嘻。这些东西真的不是拍拍脑袋想出来就可以的嘛~

而在一个给定的制度下,从更微观的角度,我们不仅仅可以看到商家之间的竞争,更多的也可以看到消费者行为的变化。比如现在更习惯淘宝商城或者京东这些B2C平台的购物者,和那些喜欢在淘宝C2C中浏览购买的人群(或者同样的人购买的商品),往往都是呈现一定程度的差异性的。简而言之,这是对于消费者的一个自然划分过程,通过他们对于机制的选择体现了他们本身的属性:购买力,价格敏感度,风险偏好,时间成本,计算机使用程度,决策理性程度等等。这些属性共同的,在网购的市场中,决定了消费者购买的产品和购买地。在这些特性之中,风险偏好貌似是网购市场中最最让人关注的事情——可能是因为,市场机制的调整会直接的影响不同风险偏好程度消费者的购买行为变化。一般说来,感觉习惯于B2C的消费者会有更高的风险厌恶特性——哪怕付出稍稍高的价钱。为什么这里我说B2C价格一般会高一些呢,主要是B2C为了进入市场(比如拿到淘宝商城的执照),需要一次性或者长期的付出更高的成本(进入成本或者声誉成本,或者像京东商城那样趁着奥运会打广告什么的)。短期之内低价可能是驱逐其他竞争者的策略,但长期看来这些成本必然还是由消费者买单的。

风险偏好的一大体现就是,消费者对于既有商家或者既有商品品牌的认可。比如,对于一些日常用品,我会倾向性的选择某些品牌。相机,嗯,Nikon或者Sony吧;笔记本自然是IBM(好吧现在是联想)的Thinkpad;出门一般不会去坐小航空公司的航班,碰到天气不好先取消的肯定是这些,还是大航空公司的调度能力强一些。之类之类的吧,人们对于品牌的依赖无处不在。品牌理论有很多,我有些武断和路径依赖的认为,品牌存在的核心价值就是降低了消费者的选择成本——习惯性的去购买自己习惯的商品,不会出现什么突发的不适应情况(当然也就没有了意外惊喜)。当然,品牌还有一个功能就是向自己周围的人传递一些信号,比如投行的孩子们一般需要一身名牌来武装自己,而IT男则常年拎着各种小众神器招摇过市吸引MM眼光...奢侈品基本就是这个目的的。然而,无论是哪个目的,品牌的塑造总是有成本的。一遍呢,是口碑长期的积累,类似于“百年老店”这样的声誉,这个是时间赋予的;另一方面,则是广告投入。最近看奥运会的童鞋有米有发现,比赛之间穿插着各种广告,不断的用某些名词来刺激人们脑子中对于品牌的反应和认知(恶心的例子如某年春晚,恒源祥的“羊羊羊”,导致大家的电视机集体呈现死机状~你懂得)。

就算我们耳熟能详的一些品牌,也有子品牌和多品牌策略,可以方便的区分不同的顾客群。典型如各大酒店连锁集团,例如喜来登,高端的有以私人管家服务著称的“瑞吉”(补一句,拉萨有一家,让人各种流口水啊~);商务客有艾美、威斯汀和喜来登;然后还有稍稍平民的福朋喜来登。日常生活中,你知道的,什么潘婷啊、沙宣啊、飘柔啊都是宝洁的,对吧?这个世界大概只有强大如apple,才能上下通吃吧...一个iphone搞定所有孩子。微博最近流传了一张很经典的快消品品牌图:the illusion of choice,嗯,其实这些都是一家的...

1c63c0e4c3e0a2d4dd93d2f64dddf848-1024x642

那么一个关键的问题也就浮出水面了——在网购中,人们对于新品牌是什么态度呢?我们一边看到淘宝让很多江浙地区的中小企业有了打造自己品牌的机会(比如裂帛?),另外一个方面网购的时候出于风险厌恶和时间紧迫,可能人们更多就是匆匆买完自己需要的东西而已。那么,是不是对于人们在传统超市里面买的更多的快消品,网购市场会使得新品牌更难出头呢?而对于一些实体店更难买到的东西,或者人们更追求风格和设计的商品(比如女装),网购中反而新品牌更容易确立呢?

----------实证结果-------
罗嗦了这么多,终于回归这篇论文,让我们来看一下实证的结果吧!

先说数据集,嗯嗯,这个永远是我们首要关心的。当然,世界上永远不可能有那么完美的数据,可以100%科学的回答这个问题。不过有的时候选择性样本也不是什么大问题,如果这个样本代表性还是可以的话。在Andrea这篇论文中,她的数据来源于美国一家拥有1500多家门店的连锁超市。有意思的是,这家超市一是有会员制度,二是它同时提供网上购物。也就是说,你如果是这家店的会员,既可以自己开车去超级宽广的超市购物,也可是坐在家里点点鼠标等人送货上门。具体到数据,作者拿到了11640个家庭2004到2006年之间的购物样本(时间有点早呃),这些家庭同时有实体店和网络商店的购物记录。数据是scanner level的,就是可以看到购物清单,包含商品名称价格等等。

然后,作者为了保持一个比较好的可比性,选择了grocery这个类别,基本就是我们常见的各种快消品:食品、日用品这些吧,可以参见上面那张图。作者对于新品牌的定义可能和我们感知的有点不同:对于每个消费者来说,买他以前没有买过的品牌就算一次新品牌探索行为。不管这个新品牌是不是真的新上市的。特别的,作者格外关注cereal的购买(燕麦片?),体现了人们对于早餐的选择。

好了,基本的数据情况就是这样,我们先来看一眼简要的结果:网购中,消费者购买新品牌的倾向比实体店中低13%。

可能的原因是:

  • 网购快消品更多的是为了节省时间
  • 消费者对触碰不到的东西质量更为忧虑
  • 购物网站上更多的呈现“历史购买记录”等对新品牌购买有负面影响的信息

前两点有点显而易见,最后一点则是非常有趣的。去年接触了很多推荐算法方面的东西,从理论的角度来说,很多现行的推荐算法确实倾向于推荐热门的商品。最简单的,如amazon初期使用的,购买过XX的人还购买过YY,这样一来越来越多的人可能会被导向YY。一些新品牌因为可能比较小众,就比较难以在这种推荐算法中脱颖而出。如果是电影还好,至少还有导演演员等等可以做一些基于内容的推荐。但是,对于快消品来说,本来品牌的竞争就已经呈现白热化了,推荐算法除非特别调整,否则还是很难把这些近乎“冷启动”的品牌推荐出来的。此外,推荐算法的diversity一直是一个评价算法很重要的指标,虽然很多简单的算法带来了较多的转化率,但是这样长此以往会出现热门商品更热门,冷僻商品更冷僻的两极分化。热门商品由于各个电商之间竞争激烈,很难获得高额利润,这样下来不一定电商的利润会更高。

与之相对的,是实体超市中的“推荐算法”——强大的人肉推销员。在实体超市中,会有各种试吃试用的机会,还有推销员现场演示,这样的使用体验感知会抵消人们对于新品牌的质量忧虑,反而有了猎奇的好奇心。这样一来,冷启动也不是一个冷冰冰的问题了。

嗯,接下来我们自然关心的是,一个消费者在什么情况下,会从传统超市购物转向网络购物呢?这大概是很多电商极为关注的问题。对于这个问题,Andrea使用了一个简单的线性模型,考虑了距离、运费、是否为周末这几个因素,外加一堆控制变量,主要是受教育程度、收入等等家庭特征因素。然后对于燕麦片的需求,主要考虑了价格、以前是否购买过、购买渠道等等因素。

嗯嗯,最后高潮来了——估计的时候,Andrea使用了贝叶斯估计(Gibbs随机抽样),对于购物渠道选择估计结果如下:

  • 运费越高,网购可能性越小。
  • 越有钱的人,越倾向网购(当然财富本身可能是内生的,由教育程度等等决定)。
  • 周末的时候,人们更可能出门购物而不是网购(注:这个结果可能更适用于美国)。
  • 住的离超市越远,越倾向网购。
  • 18-35岁的人群更爱网购。

而后,对于消费者品牌选择的估计结果为:

  • 网站界面设计的影响:新品牌在网购中如果希望脱颖而出,往往需要提供一个特别诱人的巨大折扣(4$以下折扣基本无作用——而一般一盒麦片也就是三五刀而已)。
  • 周末的时候,新品牌看起来更容易被发现。
  • 网购中,人们对于质量的忧虑更高。
  • 人们时间不足的时候,购买新品牌的可能性降低。

那么,网站上的推荐列表影响到底有多大呢?作者实施了一个simulation,从“历史购买记录”到“相似购买推荐”,实验结果是两年的时间内预期可以提高23%的新品牌探索比例,但是依旧低于实体店。同时,模拟结果也侧面证实了,一个新品牌进入网购市场的时候,不仅仅面对实体店中存在的进入壁垒,同时还受到人们历史购物习惯和推荐列表的双重影响(尤其是历史购买记录,成为了一个新的无形的进入壁垒)。

那么,最后的指导就是,新品牌若想在网购中谋得一席之地,类似于病毒营销的强力广告营销是不可或缺的;与此同时,如果网站的推荐算法包容新品牌,那么新品牌将受益,更容易脱颖而出。嗯,满符合直觉的嘛~ 在一个成熟的市场要脱颖而出,不靠创意和广告怎么可能呢?此外网站算法导致的信息不同流向,自然会很大程度影响网购的品牌选择——不像实体店,网络中的信息更多的呈现“被设计”感呢。

Categories
互联网产业观察 经济、IT观察与思考

[RAAT]第一话:微博的数据该怎么玩呢?

引言(即废话):每当要准备presentation的时候,就会开始想一些问题。去年写的是【社会实验的特殊性】,然后有一系列的文字和最终的slides。现在,想多少从自己这大半年的工作经历出发,写一系列文章,就叫做 R as an analytical tool吧,简称RAAT。第一话,从微博入手好了;第二话,将由Joke童鞋过年时候问的一个问题引出;第三话,会是更偏向流程和实践的东西。这些我会一点点写,也可能有所改变,看到时候具体的想法了。

新浪微博也火了这么久了,但是对于吾等数据源控来说,这等数据简直不能被暴殄天物啊。怎么用来分析为好呢?

links类数据

微博有两大类links:

  • 粉丝关系
  • 评论与转发关系

然后呢然后呢?

首先很多人感兴趣的是信息传递吧?那么决定信息传递的就是,第一呢,每个用户的信息源(主要来自于他关注的其他微博用户);第二呢,他关注的人的发布及转发行为。用粉丝关系来计算影响力(influential rank)自然是没有问题,但是多少有点损失的感觉——我们总关心一个人在接受信息之后的response是不是?所以,一个简单可行的思路是,这里不妨用其转发行为来加权,判断每个他关注的用户对于他的影响程度的不同~如是,则每个有向的link上就附加了一个权重,成为了一个加权的有向图。

嗯,这样一个基本的网络模型就构建好了。然后呢?链路预测?等等,我们关注并分析微博数据是为了什么呢?到底构建什么样的指标是合理的呢?

如果你想扩大自己的影响力...

好吧,在下作为一个老字号(落园居然被我坚持写到第6个年头了,这是一种什么精神啊~)blogger,自然可能希望多少扩大一下影响力。落园是落园,blog对我来说有它自己特殊的意义(比如发泄,呃),但是我的新浪微博就沦落为一个落园的notifier了(这个特别的理由就不在这里公开说了,私底下聊)。如是,那么应该怎么办呢?

正常的话,经营一个微博,怎么判断自己是不是越来越受欢迎了呢?显然,简简单单一个“粉丝数”还是不够的,用“转发数”为每个粉丝关系加权也还是不够的,我还得关注一下我的“粉丝”们都是一些什么样的人。比如,他们有几千+的粉丝,还会转发我的东西,那么我的影响力就~哈哈。简单的说,一个衡量指标可以是:我的微博可能会被多少人看到呢?那么,我只要算一下我的粉丝和他们转发的可能性,然后再算他们的粉丝转发他们微博的可能性,以此类推,我就通过了“粉丝”这类link成功的影响到了更多的人。从这个角度而言,这比直接的“粉丝数”或者“转发次数”更能衡量一个微博的影响力。

当然,类似的指标还可以构建很多,比如对response进行加权。看具体目的了。我的微博算个特例,因为它有一个特殊性:不转发任何其他微博(机器人自然要符合自己的身份嘛),所以我关注的指标相对单一——我是比较关注“信息能传递到的人”,而不是特别关心他们的response程度(话说最近关评论了,直接刺激大家转发啊,故需要另当别论了)。如果是商业经营一个微博,那么在内容的选择上或许就要更加迎合各自群体的口味,具体的是否可以用Bayesian规则来算算被转发概率呢(不断的update概率)?

如果你是想提供一个互动渠道……

微博被很多企业作为新兴的接触客户的渠道(沟通成本低嘛),所以很多企业可能希望建立一个帐号来更多的获取用户的信息。比如会员制的商家,可以通过找寻自己会员的微博号,来得知他们最近的偏好,然后推荐相应的产品。电商也可以进一步的做一些销售活动,比如我的京东帐号和微博帐号绑定之后,是不是就可以直接留言给京东下单了呢?就像我打个电话似的那么方便。要是他搞什么团购之类的,我也可以直接在微博上买而不是跳转到京东复杂的页面上去,那该多好啊。

对于这样的目的,首要的任务就是找寻自己的用户群,然后建立他们微博帐号和会员帐号之间的关联。除了直接的搜索关键词之外,初期还可以利用社交网络的力量,比如洲际和喜达屋集团都在做一些转发抽奖的活动,让已经关注他们的微博用户来扩散到他们的朋友(所谓物以类聚嘛,自然更有可能也是酒店常客),这样一来就已经实现了用户的识别。然后,怎么引诱这群会员是这些商家的长项,各种美图诱惑之下,让人经常在屋子里面各种坐不住(比如我...)。如果这些用户发一些信息,比如“下周飞北京”,那么这些商家大可以直接找到这些用户施以小惠然后成功的从对手那里抢的客户(先发制人啊)……反正至少我认识的玩酒店常客计划的人,都没有只专心的玩一家的。

跟R啥关系?

说了这么多,我们有了一些基本的建模思路。比如希望借助微博扩大影响力,那么最直接的办法:去找粉丝多的微博来转发自己的内容。很多微博都有一个不太公开的转发价格,如果你相信市场是无摩擦的、处于均衡的,自然可以认为价格反映了其影响范围的大小。但是,首先市场就不是一个静态的,难免在动态潮流的波动下偏离均衡;再说怎么可能无摩擦呢,信息不对称总是到处存在的。因此,为了实现现有资金(或其他资源)的集约化投入,往往需要做到的就是“找到对目标群体影响力最大的微博”。

还是用那句俗话,“物以类聚,人以群分”,很多大众微博的粉丝关系并不是从天而降的。这些微博发布的内容往往偏重某一个侧面,如科学松鼠会往往会发布科普类知识,主动follow松鼠会的粉丝可能也就有着更高的教育背景和辨知能力。换言之,不同微博的粉丝往往有着不同的群体背景。为了识别这些形形色色的圈子,我们可以先利用微博的粉丝关系,建立起来一个网络图(更可利用转发情况来建立加权的有向网络)。这在R中可以利用SNA等package完成,或者Gephi之类的更专一的network analysis software。然后在此基础上,分析若干帐户发布的微博关键词(会用到一些text mining技术,其R中的实现可以参见思喆大哥的这篇指导:http://www.bjt.name/2012/03/text-mining-in-r/),然后找到一个或者若干个符合目标群体特征的微博帐户,在此基础上按照links顺藤摸瓜、获取更多相关的帐户。一切的影响力之类都可归结于一个数学上的distance的measure问题(think about real analysis...),而加权网络中计算这些并不困难(也可以加入随机的扰动项进行多次模拟得出结果)。最后,自然可以计算哪些微博帐号的转发会对某些目标群体产生极大的影响——不仅仅是定量计算,更可以进一步归结于一个有约束的最优化问题。一旦一个问题成为数学问题,在R中无论是模拟还是求解都不是难事。最后结论会告知,哪些微博是应该去争取转发的(无论是通过金钱还是内容本身的意义去说服)。

类似的思路,能做的事情还有很多。譬如,哪怕是作为一个个体用户,我只关心某些事情发展的潮流(比如那些会影响股市的情绪),利用R也可以在浩瀚的微博信息中更准确的找出我应该关注的信息源(可能不是全部,或者出于实时性要求无法做到全量检测),即排除噪音,然后这些信息源所提供的信息便有可能给我一些方向上的指导,而不是盲从大众媒体的言论。

利用微博作为新兴交互渠道的办法就更多了,背后依赖的数据分析知识也会相应有所调整。R作为一个开源、免费的工具,其已经提供的众多packages可以迅速的帮分析人员实现相应的想法,而不是把大量的时间用于无休止的编程以开发相应工具。这样,R便可以在一个想法探索阶段找到相应的数据支撑和信息。有了想法、去实现之后,很多时候还需要评估效果(这里可以参见去年写的关于社会实验的东西:演讲幻灯片),这方面简单的计量工具更是可以在R中迅速实现、并可以轻易实现可重复的评估和报告(简单的分析模型和结果重复可以利用已有的脚本,偏正式的报告可以借助当年的Sweave和进化版如knitr)。

总而言之,我一直觉得数据分析考察的是分析人员本身的统计知识、业务知识和具体学科知识的积累,以及一些对于数据的敏锐直觉,而不是编程能力。若有想法便有其他人可以帮忙实现自然好,但是有时候一味的借助他人往往存在着时滞,一闪而过的很多想法便成了过眼烟云。不是我不提倡团队合作,只是找到这么一个完美团队的成本实在是太高,更多的时候还是不得不自己做很多事情。团队的合作程度在现实中往往会有所降低,分工模式也会更加的偏向项目执行流程(比如分析->成熟模型->自动化系统),而不是在分析阶段就完全的实现了各展所长(那样对每个成员的要求可能都太高了~)。在效率和效果兼顾的现实情况中,R的贡献自然轻易的凸显。我想这也是这两年R越来越热的趋势背后的推动原因吧。Labor division problem with constraints 🙂 分工最优化的必然结果。

------remaining challenges ------
当然,有一个回避不了的问题就是大数据量……R现在面对大数据依旧有些吃力,而network的数据往往又是一个N*N维的(N为个体数量),更加大了对于空间计算量的需求。这方面,解决思路一方面是把线性的计算分块化、分批跑;对于非线性的计算,更多的则可能是先抽取一个小样本,然后确定一个或几个模型,最后利用其它高性能计算工具来实现最终在整个大数据集上面的运行。

Categories
事儿关经济 互联网产业观察

从经济理论到商业模型

宏观经济理论比较难以直接转换为微观的商业模型,就不说了,毕竟关注的问题完全不是一个层面的。那么微观经济学呢?一个什么样的理论可以转换为一个可实践的商业模型呢? 除了金融之外?

这可能是经济学院和商学院最大的区别吧~就像物理和工程的差别。从我的感觉,最普遍的就是各种拍卖理论和模型,但是这个就有点鸡生蛋、蛋生鸡的味道了。比如Groupon,这种互联网时代的团购模式是不是我们以前所未曾闻及的?那么,在每一个传统的商业模式搬迁到互联网这个平台的时候,我们是不是可以利用信息的优势(用户注册资料、购买记录、地理位置等),来针对传统商业模式的弱项有所弥补呢?

电商在过去的2011年为广大群众贡献了无尽的福利,这个看看双11和双12抢购就不用多说什么了吧?各种烧钱烧的没完。从某种程度上,我甚至认为他们对平抑物价做出了杰出贡献……当然这个是暂时的,可是是什么样子的力量让各大电商这么火拼呢?我个人认为,还是信息优势和物流瓶颈突破,带来的电商较之于传统卖场库存、场地租金等等大幅下降的优势和对于顾客的准确感知。

作为一个有羊毛一定要蓐的半家庭主妇,我就很直接的在淘宝商超买掉了柴米油盐酱醋茶……除了肉和蔬菜牛奶等这种暂时没法买的之外。一袋大米,比1号店还便宜,联想起1号店每笔单子都亏,我就更开心的蓐淘宝的羊毛了。真慷慨啊,还暂时只有上海可以享受此等福利,真是送到门口的肥肉啊。其实,好吧,我只是觉得一个人去超市扛一袋5kg的大米太沉了,还是送货上门的好啊。

随着信息流通的加快,不可避免的,各种传统的商业模式都要面临着变革。这个过程中,经济理论可以发挥多少作用呢?我们对于information和noise的分析、我们对于博弈的分析、对于交易成本的分析,一个个是不是都可以重新在信息充分流动的情况下考察是不是可能突破传统的束缚、有一种新的均衡结果的存在。为了达到一个新的均衡,我们又应该如何设计一个对应商业模式,来充分挖掘信息的力量,创造信息租和利用信息差,赚取信息的价值?

最近在一直想这个问题,或许过去对于商业模式的关注太专一的从经济的角度出发了。这里面其实不论是academic research还是business trials应该都是可以有所尝试的。如果说团购燃烧起了传统商业模式在信息时代的第一场变革,那么后续的,应该还有更多的爆发空间——在泡沫破灭之前,需要创造更多的实质性的支撑。

最浅的,从最直接的信息流通的层面、营销,也会经历一场变革吧。只是没有它背后实质性的商业模式的变革那么深刻的有趣。