Categories
经济、IT观察与思考

古典的因果到允许不确定性的因果关系

虽然知道自己写不好这个题目,但是还是想多少记录一下最近的一些思考。放在这里贻笑大方也无所谓,反正是自家的园子,来者只能客随主便。

这么多年其实做的东西一直没能跳出因果推断的这个小圈子。虽然知道自己的短板在哪里,也知道再不好好去突破那么天花板就挡在那里了。可能开始只是一个非常实用主义者的角度,不是特别关心哲学层面的限制。到后面做的越多,知道的越多,对这个领域的敬畏也就越深。到现在,虽然每天因为工作的原因,还是会跟不熟悉这个领域的人一遍遍灌输因果推断的基本想法和重要性,但是自己其实知道我可以脱口而出的那些套路背后有多少隐藏的假设。稍稍去深思一下那些假设,有的时候也知道很多东西其实并不是站得那么牢靠。

我其实在过去的很长一段时间都怀着对统计意义上因果推断最底层的怀疑:这真的是科学一直在追求的因果关系吗?从开始学习计量经济学的时候,这一层挥之不去的“不相信”就一直顽固地存在着。当然,一开始的时候是因为知道的太少,只是本能地去抗拒一个不能融入我直觉的思维方式。一晃过了十几年,我终于有勇气再去翻看当年写下的无知者无畏的文字,还是挺有意思的。当年没有得到太多的现实应用的锤炼,居然可以在一定抽象的层面来思考这个问题,还是一番挺有意思的大脑锻炼。现在经手了这么多现实的案例,回过头去再看,当年的感悟虽然有灵性,却没有根基。

前段时间给统计之都写了一篇概述因果推断业界应用的科普文,题目起的很大,写起来也让我诚惶诚恐。其实也有跟编辑们讨论过题目是不是太猖狂了,后面大家觉得还好,就这么留下了。不知道有多少人注意到,其实我在里面非常小心地写了一个“限定句”,“这里的 ‘因果’限定为统计意义上的因果效应”。这一句一定要在一开始就写,因为我只能在做出这个限定之后,才能流畅地在一个给定的框架之内写下去。读者们不一定能感觉到作者心里的微妙情绪,但我没法自己欺骗自己。最后一段,我试图跳出这个限定,提到了“个体处理效应”,然后心里仿佛又有一口大钟撞来撞去,不敢再胡扯下去,旋即收笔。一篇不过几千字的文章让我如此胆战心惊,可见背后的思考是让我如何地坐立不安。

那么到底是什么让我如此的忐忑呢?其实就是“因果”这两个字的定义。说到因果,最符合我直觉的就是古典物理或者化学意义上的因与果,比如牛顿力学,比如氢气在氧气中燃烧变成水。这些都是可以用优雅的数学公式直接而具体地刻画的,好似真理一般,让人没法质疑。更让人笃定的则是,这些都是可以被实验验证的。虽然后面知道,古典力学只是在一个局限的环境中才会被遵循的物理定律,化学元素之间的反应也是限定在某些条件之中的,但这仿佛并不影响我对于这种非常机械式的因果的信仰。但问题在哪里呢?数学公式的局限在于,它需要一套假设和公理体系。当这些假设不成立的时候,这个看似精密环环相扣的因果体系就会土崩瓦解。数学家不会去验证假设能不能成立,他们可以得到一个理想条件下的真理,而应用者却不得不面对假设可能不成立的境况。然而我有限的物理或者化学训练并不足以告诉我,当这些假设不成立的时候,我们又如何去构造和验证一套新的理论体系呢?

从确定性到不确定性,其实是我在本科四年学习里面获益最深的一个思考范围的突破。概率论其实是一个非常强的对于思维方式的影响。这种思维方式的影响不在于记住了多少参数分布,而是在于它潜移默化地引入了一个新的假设:因果关系可以不再是一对一的、确定的,而可以是不确定的。这个时候,我们便可以借用概率分布来描述这种不确定性。这一点我其实在很长的一段时间都没有领悟到,虽然我可以熟练地推导各种利用概率来描述的公式。我其实特别喜欢问自己和问别人一个问题,什么是方差?很多人脱口而出,离中心点的距离(平方和)。然而细细想下去,比如我不断地去抛一枚均匀的硬币,每次的结果要么是正要么是负,那中心点的那个永远无法实现的1/2到底是什么?方差又是在描述什么?(想到这里,觉得哈利波特里面那个“九又四分之三站台”更加神奇了。)(另,后面看到一些脑科学的研究,说不确定性其实是对于人们认知的一个极大挑战,因为我们的神经系统从物理层面其实是不那么兼容不确定性的。人类做决策的时候其实是很难吸收不确定性的。)

从确定性到不确定性,其实也是很大程度上改变了我对于因果关系的理解。在确定性的框架之内,因果关系是不需要统计的(因为没有不确定性,我们不需要借助概率的语言来描述这件事情)。当我们放松了确定性这个假设,引入概率之后,因果便不得不被重新定义。我不知道自己花了多久想明白这一点,可能至少五六年的功夫吧(所以我硕士毕业的时候脑子里面对这一点还是一头雾水,虽然我已经天天在积极地讨论计量经济学上的“识别”(identification)这个问题了),而且每次都是一点点局部的进展,经过了很久的磨砺才愈见清晰。很长的一段时间,我是完全把这两种对于因果的定义隔绝在两个平行世界的,绝对不允许两者同时出现在我的思维框架之内。

好了,我现在仿佛终于打通任督二脉,就可以闭关修炼然后期待境界突破了吗?其实并没有。我这几年读了很多相关书籍,统计学的可能多一点,毕竟先要确保自己理解数学工具是怎么来严格地描述这个问题的。应用方面的也不少,主要是想挑战自己把现实和理论连接起来的能力,也便于理解那些抽象出来的框架和假设。然而最让我痛苦的瓶颈则是哲学层面的思考。我试图去读科学哲学,一遍遍,却仿佛还没有找到那个灵感突发的契机(eureka moment)。我试图跟别人聊,去倾听大家的理解,然而这仿佛是一个迷雾森林,大家都在一个特定的范围之内默默地停下了。有人或许试图找到在迷雾中前进的线索,却也是半途折返。我是一个很好的观察者和倾听者,却不是一个合格的冒险家,我根本不知道从哪里开始探寻。

最形象的联想就是在《荒野之息》里面走迷雾森林

有人说,经济学是社会科学之中的物理学。我觉得从面临因果推断这个迷雾森林的角度,经济学和物理学或许面对的是一致的挑战。物理学有些许进展,而经济学在蓬勃发展了半个世纪之后,却陷入了更大的迷茫(我觉得19年诺奖经济学其实某种程度上映射了大家对于这个问题的无能为力)。当应用学科止步不前的时候,大家在等待的或许是哲学和理论上的突破了。当然,我觉得其实我自己都没有窥得现在境况的全貌,只是隐约觉得,我离那个看不见的玻璃墙越来越近了。

(这篇真是的随便写写,大家尽情吐槽,也欢迎砸更多的信息和思考。)

17 replies on “古典的因果到允许不确定性的因果关系”

方差就是随机变量具有的一个性质在,真实生活是对随机变量的采样🤔

那用十把不同尺子测量同一物体的长度得到的方差,和抛同一枚硬币十次得到的方差,有什么不同吗?

能想到一些我所自我满足的片面解释:

不同尺子测量同一物体,要研究的根本之物是“得到的各个测量值”,我们假设它是随机变量的采样(这个随机变量的含义可能跟这批次尺子的共性有关),于是套用公式得到了一个“计算结果”,对于随机变量而言这个结果还有“采样方差”的含义。

多次抛硬币的根本之物是硬币结果,把硬币结果的01映射,也假设为随机变量(含义与这枚硬币有关),计算得到方差。

映射完01之后,感觉差别只是离散变量和连续变量的取值范围不同而已。

哎我例子没举好,我是想说虽然概率分布(方差作为其中一个参数)是一个允许我们描述不确定性的工具,但他本身不告诉我们不确定性的来源...

类似的例子还:为什么薛定谔的猫明明只能是一种状态,而我们观测不到的时候就要给它赋予两种状态之间的概率?为什么计算机的伪随机数明明满足各种随机数的性质,而当给定种子(seed)的时候它就变成确定性的了?为什么线性回归最小二乘方程里面,自变量x是不是随机变量与否会要求我们有不同的处理?
换句话说,如果我们可以穷尽世界上所有的信息,并永远可以准确观测,那么还有没有不确定性存在呢?

个人的一点浅薄理解。因果是存在的,确定性和不确定性也是同时存在的。事实逻辑中的因果本身是存在的,不管大样本数据还是小样本数据都只是采样,只不过现在大数据里面普遍流行“数据量越大涵盖信息越多越接近事实本身”,但都是某种程度上的不全面,因为都是通过观察数据来解读现实。

所以不确定性来源于我们的观测能力不足而不是因果本身?换句话说,上帝不掷骰子,而我们观察过程中有噪音?

不不,不确定性不止来源于观测能力不足。就像你上面一条回复一样,我们确实不知道到底是唯一因唯一果还是多因多果,能被实验反复观测到并且证明的现在就被拿去解释成确定性的因果关系了,而不确定性的因果就真得是薛定谔的因果了。不知你有没有看过[列弛写的进化论一点点](https://www.liechi.org/cn/2018/11/evo-3/),我读完的感觉就是无数人在世时穷尽一身去追求确定性的可解释通的因果,可是过了几百年科技发达了,还是会冒出来不确定性的因素,到底是来源于观测过程中的噪音还是因果本身,还是需要继续探索。跑个题,统计学习的本质也从来不是定个假设条件或者设个目标函数,再各种求解就得到唯一结论的,所有结论都是在某某条件下达成的,所以好像学统计学的人都更容易接受不确定性。

缩进太多了,新开一个评论

我的想法是“宏观、物理”世界里是决定论的,随机只是一种很好用的、算力不足的妥协产物,我们检验现实是否满足随机,并利用随机的性质指导现实。

但是如果牵扯到量子啊自由意志啊,事情就变得复杂起来了

我觉得这涉及到哲学上认识论的部分,包括是否存在绝对客观的实在世界,认识的内容是否依赖认识的方式等。
如果暂时只考虑因果关系,类似科学机械决定论,那么确定性与不确定性区分的关键点在于你提到的信息。
不确定性可看成对无穷因果链条的简化和综合,忽略因果影响的方式,总结出各种结果的可能性。
正常的猫只能是一种状态,而我们缺少信息,所以可以以结果简化成两种状态的概率。
计算机的伪随机数满足各种随机数的统计性质,但它是以确定方式生成的,如同无穷的因果链条,但对于不知道seed的人或者使用它的人,只看中它的分布是看上去随机,所以可以当做随机数来使用。
自变量x是不是随机变量的处理,倒应该是和模型的的假设有关,进而影响系数的求解。
所以如果可以穷尽世界上所有的信息,那么就没有不确定性。
但问题出在信息的获得要通过观测上,这又涉及到认识论,而量子力学提出了另一个关于观测的问题则是观测本身会影响观测结果,这就产生了一种确定不了的不确定性。
因此才有了状态的叠加和以这种认识方式赋予薛定谔的猫两种状态的概率。
这么说来,不确定性也应该分为简化考虑和真确定不了两类,但理论上使用影响不大,甚至使概率论更有用,因为原来是为了简化方便,现在是真确定不了。

虽然我们的工作领域相隔甚远,但看这篇文章时有种共鸣的感动,以至于看完一遍后倒回去又看一遍才能集中注意力关注里面讨论的问题.

以前学函数的时候很不理解为什么要求自变量集合的元素需映射到因变量集合里唯一的元素,后来听说这是因为远古的物理大神认为物理过程的每个因需对应唯一的果,于是对函数提出了这么个要求.也因物理学家的这个执念,近代包含不确定性的新物理才引起那么多风波.有种理论认为人的神经系统是被后天的生活经验塑造出来的(神经埃德尔曼主义,这也是我现在比较认可的理论),而我们生活的世界一般有比较清晰的因果关系,所以我们的神经系统也就变得习惯经典的,不包含不确定性的因果律;我想,如果把一个人从小培养在一个不确定的环境里,或许他形成一套更适应不确定性的神经系统.方差是什么?这真是个好问题,我也困惑,掷骰子掷出来的方差跟对某生物过程建模后无法被模型解释的那部分方差是一个东西吗?我们用同一个词描述的东西可能有不同的内涵.

你这篇文章里,你提到的困惑的部分我能理解为什么困惑,但你领悟了的部分我还是无法理解.比如,什么是"统计意义上的因果效应?""因果关系可以不再是一对一的、确定的,而可以是不确定的。"如何理解一因对多果?如何区分用概率分布来描述的不确定性是系统内生的特性还是因为一些未知变量引起的?如果是后者的话,可能最终还是一因对一果的经典因果律在起作用.

我在统计之都上看了几篇跟因果推断有关的文章,那是这个领域我接触过的全部东西了.我还是不大理解为什么从数据里能分析出因果?这里说的因果跟我们控制了变量后做实验得出来的是一个因果吗?

最后,吐槽一下科学哲学.我觉得里面既没有科学,也没有哲学,不是此道研究者的话,如果不是为打发时间的话,似乎没有必要专门去看.我甚至不理解为什么会有人专门去研究这个,我觉得在卡尔纳斯,波普尔,库恩等人不太成功的尝试后,这个领域就应该荒芜了.

你这深入思考的留言让我反而不知道如何可以提供有信息量的回复。先捡一个比较容易的。如你所说,数据里面分析不出来因果本身。因果推断其实不是一个好名字,它做的其实不是找寻哪里有因果,而是在给定因果可能存在的情况下,仅仅能量化这个因果的效应有多大。
我当时写这篇的时候心里想的是,因果本身是不是有不确定性,比如同一个体重复实验依旧会实现出来不同的结果,还是因果本身是确定的但是我们观察的数据过程有不确定性?这两者混在一起可以被概率分布来描述4,但我们并无法从描述本身分离出来谁是谁。这好像也算是统计学的基本问题之一,即数据只能记录一个特定的结果,无法分辨噪音和真实分布本身。
科学哲学那个,哈哈,只是想看看大家为何卡壳儿了。并没有期待能找寻到什么答案。

我现在能想到的不确定性有三种来源:1,系统的内生特性,比如掷骰子或近代发现的一些物理过程;2,测量误差,限于人或工具所能达到的精度;3,构建的模型中存在有波动的未知量,或对模型里因子间的关系不准确的假设。这三种来源的不确定性会混杂起来,反映为最后测量记录下的那个数值,但若分开来看,其实前两种情况虽然会带来不确定性,但其中无因果关系可推断。第一种情况我们知道系统的所有信息,第二种情况测量值本身就是它能提供的所有信息,所以只有第三种情况需要做因果推断,推断的是我们为某过程建立的模型里所假设的变量间关系能在多大程度上解释观察结果。按我粗浅的理解,除开前两种因素产生的不确定性,剩下的模型里的因果关系应该是经典的,确定的,不然就难以描述和理解。原因是,模型构建是我们思维的结果,按维特根斯坦的意思,我们只能思维和表述符合逻辑的关系,而无法思维非逻辑。我们能想象到一些“不可能”场景,但他们其实并不被逻辑禁止。休谟好像说过,因果关系只是人们对前后相继发生的事件的一种心理联想,我当年初看到这个话的时候完全不解其意,后来花了大量时间理解《逻辑哲学论》的前几个命题后,发现休谟的这个话实在是无法反驳的真理。

限于我对统计上因果推断技术部分的无知,上边的讨论可能已经大大偏离了你文章里关注的点。若是离题太远,还望见谅。

刚看完因果推断在广告、推荐、定价等方面的应用,但是心中本能仍然对它持怀疑态度。它在广告、定价补贴方面真能起到那么大的作用吗,是不是碰对的?一系列的底层算法仍然是机器学习、深度学习算法,熟悉的评估方法,但是对它依然是模模糊糊,感觉这种因果推断算法还是离真实生活太远,理解不了它的真髓。所以google了因果推断,想寻找一下这种算法的本源。
学数学和统计学出身的我,内心一直觉得数学和统计学真的很厉害,很抽象的在诠释着一种世界的各种问题。比如空间概念运算概念,但我觉得自己一直处在似懂非懂及深度迷茫于现实世界不会用的困惑中。不知园主能否为我指点迷津

因为搜索因果推断的内容,偶然闯入园主的这片天地,有种误入桃花源的感觉。先说说自己对因果的理解,我是社会学出身,但对于现有的社会学方法论不甚满意,我觉得因果是在不确定性中寻找规律,既然是规律,那就不一定人人、事事符合,但大部分人和事都符合;从这个角度上,我觉得社会科学是一家,因为我把社会学定义为研究个体之间相互作用及其宏观结果,恰巧听过钱颖一老师在清华的经济学课,他开讲第一课也是把经济学定义为三类问题:人们如何做出决策、人们如何相互作用、整体经济如何运行,感觉很新颖;我自己后来自学了编程和深度学习、强化学习,深深感觉未来研究范式可能会发生变化,原来的统计模型的基础假设不断在推倒、重建之间反复,未来可能要在模拟和仿真之间去探索可能的因果规律。

Comments are closed.