Categories
互联网产业观察

被归纳迭代统治的世界

在这个AI快速改变世界的时代,园主已经从一开始被GPT表现出来的潜在智力的震撼,到现在对于层出不穷的图像视频音频AI工具有点审美疲劳了。去年的时候和朋友们感慨,在归纳和演绎之间,这个阶段归纳的力量远远超越了演绎。算力的突破仿佛像《三体》中描述的突破智子封锁一样,让可以被计算改进的模型都深深享受着巨量数据带来的断层优势,层出不穷地展现着未来的可能性。

AI模型之外,很多产业也都被基于数据的归纳和快速迭代逐渐颠覆着。shein在快时尚的成功,是千千万万的时尚元素排列组合迭代出来的。时尚爆款可能是玄学,但只要样本量足够大、选择足够多,就一定会出现几个爆款,然后只要快速跟进就可以吃到一波流量红利。类似的玩法不仅仅局限于快时尚,但凡是“义乌制造”可以连夜复制出来的消费品,都可以用这个打法。譬如手机壳,原型相对固定,考验的是设计师的创意和流行元素变化。看一个纪录片说,人们平均一个月换一个手机壳(可能是北上广的消费数据),那么消费者对于新意的渴望就成为显而易见的需求。

从文字,到图像,到视频,到落地成为一件工业制造品,快速迭代的可能性充分地考验着人们的贪心。行业之中的人们各司其职, 努力地优化着每一个可以减少成本或者提高效率的环节。那些看似玄学的艺术和非理性,最后也没敌过归纳和迭代的降维打击。

毁灭吧,消费主义快点变回极简主义吧,要不园主实在是跟不上这个光怪陆离的世界了。毕竟这人脑子还是习惯基于演绎的思考,重新训练到归纳的角度有点超出人脑算力和记忆存储的局限了。以有限对抗无限,怪不得庄子说,

吾生也有涯,而知也无涯。以有涯随无涯,殆已;已而为知者,殆而已矣!

附录:看到一个纪录片《这货哪来的》(B站的?)来的灵感,把这些观察串联了起来。

Categories
互联网产业观察

[新坑]通用人工智能

为了写下这个标题,我打字都要抖一抖。Artificial General Intelligence 这一年被炒的太火热了,我好像一个迟到的来蹭流量的似的。硅谷每几年都会有新的一波热点,追热点死得很惨的人一片片,我还是多少费了一番功夫,才觉得这不是又一个转瞬即逝的热点,而是一波新的技术革命的开端。

最近种种原因吧,花了不少时间精力来了解和思考这个领域,理论、技术和商业应用层面都有(我怎么这么牛,打脸冷静一下)。虽然前面法语的坑还没填上,但我还是想先挖个坑,要不要开个频道专门聊一下AGI和其他这一波AI技术的革新呢……哎,再挖个坑,这次可以用英文法语中文三种语言讲这个话题哎,想到这里觉得自己好厉害的样子(再打脸清醒一下)。

让我这个周末冷静冷静,再来看自己是不是又一时冲动了哈哈。

Categories
互联网产业观察

互联网电商真的降低了搜寻成本吗?

(本文纯属个人观点)

最近买东西的时候,越发地怀疑现在搜寻成本是不是越来越高了。电子商务平台层出不穷,而对于自己不熟悉的领域,买东西也越来越困难。同质化的商品还好,比如洗衣粉卫生纸,这东西差别不大,随便买买用就是了。异质的商品就惨了,比如打印机,我大致只知道激光和喷墨的区别,但是具体到不同的激光打印机,我就一片茫然了。在各大论坛翻帖子,试图学习不同的术语,然后再去各家网站比较价格。或者,找个比自己懂行的朋友,直接问人家的推荐。在现代生活高度依赖工业品的今天,这种搜寻好像是无穷无尽的。今天是打印机,明天是缝纫机,后天是水龙头,大后天是吸尘机...美国网站喜欢搞限时deal,中国网站喜欢各种复杂的领劵,一头扎进去都不知道那一个性价比更高。

“杀熟”更是一个让人防不胜防而感叹世界不公的招数。比如,在美国出门租车,一大片网站看花眼,各种暗藏的收费(比如额外司机费、额外里程费、异地还车费、变更费)防不胜防。消费者往往是没法承受过高的搜寻成本的,于是对于可能没那么在意的东西,就宁愿被平台剥削了。比如我知道一些比较忙的朋友,买东西永远就是在amazon里面输入关键词,然后看都不看、直接买搜索结果第一个...

大网站靠着流量,或是巧立名目或是强取豪夺,总不能让人信服搜索第一名的就是最适合自己的。付费的简单粗暴,而免费的排名也是可以靠资金做出来的(刷单),连评价都不知道有几成水军,这日子仿佛比以前线下更难了。连费时费力的直播卖货都能搞出这么大一个产业,实在是让人惊叹这其中的高昂的搜寻成本。最近看到一个说法,互联网就是广告业。我不敢苟同,因为在我陈旧的观念中,互联网只是一个信息传递的加速器,它只不过是以前既有的交易模式的提速。不过或许网络效应超出了我以前的理解,当流量聚集在几个全国性网站、而不像以前那样线下交易有很明显的区域化特征的时候,或许搜寻成本的组成也被重新定义了。消费者被大网站绑架,新的商品很难不通过付费的形式吸引到消费者的注意力了。以前“口口相传”的口碑营销,也渐渐变成了网红的口碑,信息的集中度可能远远超出人们的想象。

营销本身也是个有规模效益的事儿。以前电视广告的时代,每年央视黄金时段的拍卖王,动不动上亿的广告费,都是人们茶余饭后的谈资。现在互联网虽然降低了营销的入门门槛——就算你只有十块钱,也可以在搜索引擎上买关键字——但却可能提高了营销有效的门槛,这十块钱可能是纯打水漂了。不说广告,只看免费的信息传播,现在还有多少人可以发现博客的内容?很多人不得不转向公众号。就算有博客,大家也是费尽心力在各个平台上宣传,然后趁着平台还允许外部链接,引流到自己的博客上。但是随着rss的日落西山,又有什么手段可以留存住这些读者呢?其实很难了。

不仅仅对于内容创作者来说很难,对于内容的搜寻者也难。最近几年明显地感觉到,利用搜索引擎搜寻出来垃圾信息的比例不断加大,甚至于找到相关的信息都要感到幸运。以前不是的,以前各种博客给予了互联网极大的多元化的信息源。而且这种信息的垃圾化不仅仅是在网络极速更新换代的中文世界。就算是英文搜索,很多时候搜出来的也都是重复而无用的,甚至有各种明显恶意碰瓷关键字的。这对于真正有用的信息的创作者来说无疑是毁灭性的打击。恶性循环,大家被逼到一个个封闭的小圈子里面去互通有无,进而造就了一个个无形的新领域的触及门槛。

那么这一波受益的是谁呢?以前经济学有传统的“品牌溢价”或者“声誉溢价”,就是说人们为了信任的品牌是愿意给一样质量的商品多付钱的。现在这种溢价依旧存在,只是可能不仅仅是品牌名声本身,而是借助各种营销渠道体现了——譬如网红主播来带个货,一模一样的辣椒酱,可能就瞬间价格翻倍。随便抓张图、看一眼过去十几年的互联网广告行业增长,动不动20%的增幅,真的只是传统广告业的转移吗?

搜寻成本过高其实并不是一件好事,因为某种意义上,这是一个社会的净消耗,阻碍了资源的有效配置。有人会说,竞争市场会终究优胜劣汰,把这个成本降下来。而竞争市场靠的是众多的参与者和较低的进入门槛。一旦形成垄断,那么受益的只是垄断者。如果垄断者占据的是交易平台, 那么生产者和消费者都要为平台交税。这和给政府交税还有不同——至少后者是一个换取公共服务的明码合同,而平台的“交易税”甚至不能保证交易的公平,赢者通吃怕是没那么好看吧。

其实有个很简单的测试。在google搜索的时候,假如最上面的ads和下面的正常搜索的结果是一样的,你会不会自觉跳过付费链接而去点免费的呢?

Categories
互联网产业观察

NeurIPS 2019的一些观感

前几天有提到,十二月份的时候去NeurIPS 2019晃了一圈。除了开篇那个演讲之外,那周我还去围观了不少其他的东西。NeurIPS开到如今,万人大会,熙熙攘攘地其实挺难甄别信息的。第一次去这种顶级的计算机会议,经验不足,只能按图索骥般地一点点拾遗。

好在,我目标相对明确,并不是一味的去凑热闹的。那些火到爆的GAN之类的,我就只能远远地围观一眼,然后不明觉厉,去找自己相对更能看懂的东西去了。于是,我就很无聊的,去看了两个主题:因果推断相关的,以及隐私相关的。

因果推断这块儿,能到NeurIPS自然是被选择过的,不会是太纯理论的这种。跟机器学习相关的自然是要跳出简单的线性回归了,否则大家写什么呢?其次呢,就是跳出随机试验的框架,否则哪里用得到那么多高深的预测模型呢?七七八八看了不少poster论文,大部分都是各种花样繁杂的算法。努力地去理解他们的做法,然而却哀叹一声,浮沙筑高台,又有多少可以大浪淘沙始见金。(插曲:后面那个causal inference workshop,直接就是Susan-fest...哎,她也算是扛起来一面大旗了。)

隐私相关的,其实是加密+分布式的结合,基本要实现的是在客户端进行计算而不是需要把原始的隐私数据传递到服务器端。于是乎,我们看到了各种基于分布式算法的演化,加一些随机的因素在里面,就得到了一些隐私友好的算法。也挺好玩的,有助于想清楚一些分布式算法的设计。

笔记本身是用英文整理的,直接在这里贴一份好了。

Categories
互联网产业观察

新媒体营销中随机分组实验的失败

这个话题可以很深,我这里只是随便写写。当然我也不去定义什么是“新媒体”了...基本上下面可以视之为社交网络媒体。此文纯属若干无知的随便念叨,内行请无视。

记得原来在做社会实验的时候,最头疼的就是网络效应——这东西会让你的随机分组失效。如果网络扩散是均匀的也就罢了,这东西还不均匀,搞得随机分组基本上被破坏殆尽。今天和做社会网络营销这块儿同事聊起,发现他们在新媒体营销上也是遇到了类似的问题——传统的A/B test基本失效,因为control组会被极大程度的“污染”。和电视营销的地理隔离还不一样,社交网络是无孔不入的...

但是偏偏,我们还是希望可以利用这样的网络效应的——主动的传播岂不是更好?于是问题就变成了如何去精准衡量网络效应。

从我们以前的做法(可以参见我的硕士论文,in English),基本上是需要动用IV的...哎,然后这个IV还其难找无比。有些幸运的情况,IV是可以找到的,但是也需要一些外在的shock强行的打破现有的网络连接。

如果说要找一种比较简单的做法,那可能就是类似于spatial econometrics他们做的那样,对各个个体在空间中的位置进行加权。比如你要衡量微博营销的ROI,肯定要跟踪到实际覆盖的个体,然后在构造了网络结构的基础上,对个体的位置进行加权。但是讨厌的是,位置或者连接这些东西都是内生的...所以需要去找自然实验,然后去找工具变量...

总而言之,在我读过的为数不多的paper里面,可以很好的衡量网络效应的很少,而那些极少的还是控制了可控的资源的(比如实际的物品发放而不是新闻式传播)。感觉受新媒体的影响和冲击,很多传统的营销方式都在面临着极大的变化,做的好的往往不是分析人员算出来的而更多的是营销人员一步步摸索出来的...

所以,其实我想说的是,可能需要增加一些更好使用的指标来衡量新媒体营销的力量,而不是期待更好的分析方法的改进来支撑营销。后者还需时间来打磨(如果不是case by case的找IV的话)...