Categories
事儿关经济 经济、IT观察与思考

从a/b实验到机制设计、商业决策

本文只代表我自己的不成熟的思考,请勿过度解读。

试想如下两个场景。

  • 场景一:我们做了一个随机试验(random experiment),通过各种实验数据分析我们得出了结论是ATE(平均效果)为1%的提升,对应的p-value是0.09。所以这个东西10%显著,应该推广。
  • 场景二:我是一个风险投资者,我现在有100个项目可以投或者不投,每个项目都有其预期收益和对应的风险。我需要通过各种投资组合实现收益的最大化。

正常的来讲,上面两个场景分属于两个领域:实验分析和金融投资分析。好像之间并没有太大的关系。如果大家做实验分析就知道,大部分paper关心的都是如何得到一个干净的average treatment effect estimate,哪怕是为了降低variance做一些variance和consistency之间的trade-off,我也是在大原则不变的情况下。第二类文献我不是特别熟,但是通过有限的金融投资学的知识,我大概知道做法就是一个线性或者非线性、随机或者非随机(这里的随机是stochastic而不是random)的最优化过程、关注的更多是一些本身不可控的因素。

可是为什么我突然把这两者放在一起?今天突然讨论起type i 和type ii error,然后就不自主的联系到decision making...然后突然间觉得好像有哪里不对...互联网公司大家特别特别的依赖a/b test,一方面是谁也不知道什么是正确的所以索性让数字来说话,另一方面也是有点过度相信统计学的权威、依赖各种统计量和统计模型——我并不是说我们应该剥夺这种权威,而是有的时候好像忘了为什么一开始我们需要引入这样的决策体系。

先说一下我所熟悉的决策体系:做一个a/b test,如果实验结果显著为正(就像大部分field experiment那样),我们就给予实验者相应的奖励(towards business goal)、然后整个铺开。从机制设计的角度,这是一个有效的机制:规则是透明的也是保证正收益的,每个组都在这个机制下play the game是相对公平的。可是这样的机制的缺点是什么...无数的analyst就一夜夜的浪费脑细胞在获得一个可以被认可、又可以最大化自己所属团队贡献的估计量。business side只关心那个估计量的大小,然后公司内部的裁判角色又来审查你这样做是不是统计上正确的。所以many companies end up with a group of data scientists。

可是我们好像忘了一个东西:efficiency。公平是公平了,但是这个机制是效率角度最优的么?从公司的角度,做这么多a/b test实际上就相当于一个投资组合的决策过程:我需要在哪些上面投入更多、哪些上面投入不要这么多。每一种决策都是有风险的,那么既然是一个风险和收益的最优化过程,我就应该计算所有预期收益、成本和量化风险。风险应该是一个连续的度量而不是一个简单如p-value <10%这样1或0的二维决策过程。

所以说到这里,其实当你在做那么多实验的时候,其实那些针对单个实验分析的指标甚至理论什么的就不重要的。每一个都做到极致并不代表整体是最优化的,甚至可能是囚徒困境那般谁都走不出去?suddenly I got very sick talking about type I and type II errors.  I don't think that fits the culture.

大概就是这些,最近脑子里面萦绕的就是这样稀奇古怪的想法...喵。

bottom line

想起来一个joke: statisticians are good at generalizing stuffs (when we talk about statistical tools....the answer is it does not matter! because you should be good at generalization.)

Categories
读书有感

实验设计的大坑

我总觉得自己学过实验设计——而今却越来越不敢说这句话。这两天一直在感慨:

1. 最近发现一种可怕的感觉:越是学习越是深入了解一个领域,越觉得自己不知道的很多,而且是越来越多。于是越来越不敢对这个领域发表见解,给出的答案也往往越来越保守...

2. 忧伤的表示,那种问个问题直接扔几篇paper作为回答的童鞋,可不可以考虑一下小白的感受,至少先扔个综述来让我了解一下这个领域的概况好么...直接扔篇working paper来说你自己领悟其中奥秘吧,这是闹哪样....

嗯,这就是我现在对实验设计(experiment design)的感受...水很深。

感慨完了上面第2条,就去乖乖的google相关的知识了。首先从wiki下手:http://en.wikipedia.org/wiki/Design_of_experiments,事实证明我的选择是比较正确的...历史痕迹一览无遗:

  • Controlled experimentation on scurvy
  • Statistical experiments, following Charles S. Peirce
  • Randomized experiments
  • Optimal designs for regression models: Response surface methodology
  • Sequences of experiments

瞬间有种拨开云雾见月明的感觉,感觉终于有个清晰的脉络了,残留在脑海各处的零碎的问题终于有个线索可以慢慢追寻了。简单的理解一下这几个东西。

  • Controlled experimentation on scurvy:最开始的控制/对照实验的想法,很简单,就是把12个坏血病人分为六组,然后分别给了六种治疗办法。结果在一周之内,吃柑橘的那组就很快恢复了...所以这就是为什么维生素C叫做坑坏血酸的原因么?啊啊啊....我又跑题了。
  • Statistical experiments, following Charles S. Peirce: 到这个时候开始提出频率和概率的概念,开始强调随机化(randomization)。
  • Randomized experiments:这个时候开始出现随机、双盲、重复试验的概念。
  • Optimal designs for regression models: Response surface methodology. 这里就是从full factorial到response surface,即从多个可能的factor组合中中寻找最优response。第一步是普通的多因子实验,然后找出显著的因子。在此基础之上,进一步实施更为复杂的比如Central composite design,就是选取这些因子的中心点,run实验;然后保持所有其他因子不变,在一个因子中心点前后选两个点,来做二阶多项式拟合。重复此过程直到所有因子都被测试。
    Response_surface_metodology
  • Sequences of experiments:这里就更加灵活,可以通过多期的实验方法来渐进优化。常见的如Multi-armed bandit problem, Gittins index and Optimal design。基本的idea是,按照上一期实验的结果来判断下一期实验的方向。近期的研究可以参考这篇:
    Scott, Steven L. "A modern Bayesian look at the multi‐armed bandit." Applied Stochastic Models in Business and Industry 26.6 (2010): 639-658.

最后关于实验设计...貌似有本handbook式的教科书:

Montgomery, Douglas (2013). Design and analysis of experiments (8th ed.). Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118146927.

。。。。。。。。。。。。。。。。

瞬间觉得自己真是跳进了一个大坑。