Categories
读书有感

实验设计的原则与我的体会

今儿继续读前几天说到的那本书:

Montgomery, Douglas (2013). Design and analysis of experiments (8th ed.). Hoboken, NJ: John Wiley & Sons, Inc. ISBN 9781118146927.

嗯,我读的很慢,唉,求轻拍啊。

刚读完第一章...(默默的跪墙角了,第一章才23页,居然读了这么久!)。看到一些比较有意思的点,抄一下顺便罗嗦一下。

1. 实验设计的原则

基本上就三点吧:随机化、重复、分块(blocking)。

  • 随机化没什么好讲的了,就是保证treatment的分配和其他各种可观测不可观测的variable之间相互独立、相互不受干扰。从我的理解,这大概是源于一条定理(下为简述):
    如果回归方程是,且,那么下面两式估计出来的(均值)一致、估计方差后者小。
    1)
    2)
    所以如果我们保证了treatment和其他各种因素相互独立,就可以直接通过随机试验来读出treatment effect了。
  • 重复。重复这里一方面可以广义的理解为“可重复研究”,另一方面其实很简单的就是样本量要足够(比如不停的抛硬币来判断硬币是不是均衡)。也就是说,只针对少数个体的实验可能受到各种随机外在因素的影响太大,而加大样本量(实验个体)有助于减少这样的误差、同时提高估计的精度。所以,重复更多的是,在相同(或者类似)的个体(情景)上重复同样的treatment/control。
  • 分块。这个主要是排除一些样本间差异的影响。作者给的例子比较直接,有两批原料样本,然后做某种实验。两批原料可能由于批次、厂商不同,相互之间有些差别,但这种差别我们是不关心的。所以评估的时候,就把他们分开、每块单独评估。(或者理解为,回归方程里面加一个批次的dummy variable,然后算方差估计值的时候做一下cluster。

除上述三点之外,还有一个要注意的就是factorize,译作因子化?简单的来讲就是一分为二、是或者否。然后多个因子组合一下...

2. 实验设计的一些要点

这个就是高屋建瓴的说说咯。

  • 利用自己在该领域的知识。否则就是盲测?感觉这个有点像经济学里面强调structual model的那种感觉...
  • 实验设计和分析越简单越好。不是什么高深的技巧都应该一股脑的放在实验设计上的...越高深适应性可能就越差。
  • 认识到实际价值和统计显著性。这个就是说,统计上显著的,实际中不一定有意思。比如花了很大力气,证明了某个treatment effect是显著的,但是提升只有0.01%,却增加10%的成本,那就得不偿失了。
  • 实验往往是递进的。几乎没有一次性的实验是完美的,我们往往是在渐进的实验过程中不断学习。一般第一次实验都是简单而广泛的,更多是一种尝试和探索大致方向。作者建议不要把多余25%的资源投入到第一次实验。

嗯...其实挺好玩的还是,虽然有很多繁琐的地方,但大致的原则和方向还是蛮清晰的。实验设计其实最大的区别就是,不是想尽办法用模型去套现有的数据(黑一下ML),而是想办法更好的搜集数据、从而进一步时间简洁有力的分析(simple, elegant and powerful)。

Categories
游来游去

沿着数学的思维

有的时候会感慨,这个现实中的工作简直就是“毁人不倦”,各种工作永远是重复性无意义劳动居多,一个想法太fancy就往往不会被appreciate了。原来一个好朋友曾劝我,“今日的忍耐是为了有朝一日的 pay back”,总会有收获的时节的。但是我还是很悲哀的觉得,能不能让我不要觉得最近三年的知识积累都没有用呢?现在各种怀念写论文时候的快乐。

有个blog的好处就是可以不停的在whinning,然后若干年后可以看看自己当年到底在关注什么。刚才因为一位读者的留言翻到了两年之前学习复变函数时候写的一篇blog,看了看自己反而不记得那些是什么了。“留数”,这么一个既熟悉又陌生的概念,complex analysis算是被我遗忘的差不多了,除了“复平面”这么一个深入人心的思维框框以外。有的时候,学complex analysis, functional analysis, real analysis觉得真的是一件很快乐的事儿,不断的挑战自己的思维,但是最后,在economics里面如何漂亮的应用,我所见到的也就是那几个寥寥的著名例子。当然我承认,real analysis对于人的思维的升级和改造真的不是一个层次的,洞见力啊!

同样的,经济学里面那么多知识、模型,现在有多少又可以被我灵活的运用呢?我在不断的拷问自己。这也算是对于自己的一个考核指标吧:现在做的事情到底对未来有多大的意义。最多,也就是看看财经新闻的时候可以很不屑的对某些故意煽动情绪的分析嗤之以鼻,然后和别人纠结一下汇率、股市、房价等等其实我不怎么感冒的问题。不过,最近对我震撼最大的就是前几天去深圳玩的时候,跑到“深圳市博物馆”里面看了一下当年的深圳和改革开放前后的故事。真的,蛮有冲击力的,邓爷爷当年的洞见和魄力真的是让人钦佩万分!

这个时候才深深的意识到,上学的时候课本上一句“货币政策作用快、涉及面广”“财政政策作用慢、影响深”,即“一粗一细”之间的巨大差别。而现在,最大的争议,莫过于我国的出口退税政策吧。很简单的说,深圳的东西,出口到香港就可以享受17%的增值税返还,那么也就不足为奇为什么那么多深圳人周末去香港购物了。这么一个政策,我真的不知道它是在保护“出口加工贸易”这么一种产业模式,还是无力承受调整之后企业倒闭和失业增加的后果。可是,这个当年极大的带动了出口和就业的政策,还适应当前的国情么?我们的“内需”怎么可以承受这么一种不公平的价格杠杆呢?任何一个宏观模型,不都是以消费开始的么?没有市场价格下的消费,怎么可能有经济体的健康成长?

想到这里,觉得一个经济体的运作实在是有够复杂,一环扣一环的关系最终造就了终端产品的百花齐放。资本家会不惜一切代价的追求利益最大化,那么如果不能说服所有人、或者不存在一种可以让所有人信服的方法来维持平均分配主义,那么就应该按照市场的规则去玩这个游戏。财政政策永远是经济发展的擎肘啊。

古人云,读万卷书,行万里路。如果我应该珍惜什么,那就是在这个四处漂泊的工作中,尽可能多的体会各地的文化、经济和发展模式,然后形成自己的洞见和判断。现实总是让人意外的,以前在象牙塔确实是井底之蛙了。

最后附上几张图片:“世界之窗”里面的微缩版Park Guell和Barça的真实版 :)很有穿越感啊!
深圳版:


巴塞版:

Categories
我的生活状态

读书、写代码

在重温 Competition Policy: Theory and Practice 这本书。我不得不承认,anti-trust一直是一个很有意思的领域,最直接的和业界、经济政策相联。看看这些故事,看看背后的各种出于“市场效率”的考量,真的觉得世界是很美妙的。

没想到这个月会有这么多代码可以写。或许,像我这么一个极度讨厌“重复劳动”和copy、paste的人,思维永远会是,“这东西怎么写代码啊”……可惜啊,当年没好好学C,现在被R惯坏了,什么都用R来做,也越来越懒了。很多问题,一时R解决不了,就只能郁郁的手动处理掉。然后心里在想,“真心的,我会成为一个非常好的research assistant的”……呃,这是不是一个意外的“收获”呢?

有的时候在想,应该如何定义“工作”一词?不断的、重复性的劳动,不厌其烦么?很显然,这不是我喜欢的,虽然明知道很符合亚当·斯密眼中的“分工”。很不喜欢浪费自己的时间,尤其是在做一些让我觉得本科研究生都白读的事情上。这个时候,“完美癖”就显得非常不合适了,看着很多东西就这么流出去了,最后索性任其自由……

哎,很多时候,连别人对自己的误解,都懒的解释了,这么的“顺其自然”好了。或许很多东西,一不值得挽回、二不值得留恋。因此,又何必浪费自己的时间与口舌……有时间,还是多读读书、看看论文吧。