Tag: 机器学习

归纳法对世界的改造

从简单的统计模型，到后面的计量经济学，到机器学习，到现在的人工智能，过去的二十年是归纳法大发展的二十年。为什么只看二十年呢，因为二十年前的园主不知世事，超出认知范围之外了。

经济学在大规模应用计量经济学之前，一直是和物理学神似的，也被叫做社会科学中的物理学。而计量经济学的发展与突破也不是纯属巧合，主要是大规模经济金融数据的爆发。

早期的计量经济学，无论是宏观还是微观，其实都还是有深深的“结构化”的影子，就是需要一个结构化的模型来解释为什么会这样，有一堆变量和与之相对的系数，然后再用数据来估计系数。现在回头看，这个时期的计量经济学还是停留在一个“辅助”的阶段，数据的价值只是帮助计算系数。

然后计量经济学就向着弱结构化的方向一去不复返。可以说这是理论的发展赶不上数据的爆发，也可以说是人们渐渐失去了对结构化的理论的执念。这大概等同于量子力学之于传统物理学的革命，人们开始接受这个结构的模糊化。可就算是在这个阶段，人们的执念还是“因果关系”，直到今日计量经济学还是把因果推断作为其存在的哲学本源，试图从归纳法的角度倒推演绎法需要的因果关系。

然后随着机器学习的大爆发，人们从开始的“预测”和“因果推断”是两回事，到逐渐的审问自己，为什么对因果有这么强烈的执念？退一步说，到底什么是因果关系？这个时候才发现，因果关系其实在哲学上的定义也不是那么得清晰。园主在这里就不挖太深了，否则填因果这个坑就要填好久。

这些年，随着大语言模型的爆发，人工智能好像又解锁了一个新的阶段。虽然一边说着大语言就是一个预测方向无意的突破，另一边园主却看到人工智能落地层面对于结构化关系的依赖性慢慢减弱。以前我们的解决办法是对一个问题不断地细分梳理，然后逐个攻破。而现在大模型的冲击就是，我们真的有必要这样分解问题本身吗？如果深度学习模型本身可以就自动学出来一个等同于以前结构化的东西，就算我们没有办法把它明确的表达出来，哪又如何呢？

到这里，深度学习无疑是冲击到一个哲学层面的问题。当数据远远超过了理论的发展的时候，是不是演绎法的价值就远远不及归纳了？我们是像以前那样路径依赖，一定要对问题做一个外科手术一样精准的分解，还是可以容忍结构慢慢演变成一个黑盒子，给它无尽的自适应的能力，然后只需要关注结果就可以了？

这一波深度学习对于人工智能的冲击，我觉得体现到最后，其实可能是一个去结构化的冲击。我们选择放弃对于结构关系的清晰表述，然后拥抱强化的预测能力对于世界的适应和改造。

人们对于深度学习和大模型的恐惧在于我们无法解释、进而无法控制。一旦我们适应和接受，下一步就是挖掘其无尽的潜力，实现下一轮生产力的爆发。

无论如何，我还是看好科技发展与世界进步的，就算过程中会有无尽的波折。

Tags 人工智能, 因果推断, 大语言模型, 弱结构化, 归纳法, 机器学习, 物理学, 计量经济学, 量子物理

日常应用

用R做过的最无聊的事

有句话怎么说的来着，当你无聊的时候，就去背英语单词吧。

于是乎，曾经特别无聊，直接自己写了个R程序帮自己背单词。基本就是一个伪装在Rstudio里面的gre单词选择器。大致原理就是，死记硬背。每次显示一个单词和对应的四个选项，然后记录一下选没选对。下一次，自动优先没有选对的词，提高其出现的频率。大致就是一个简单的机器学习模型来预测我对于一个单词可能的出错率。

至于为啥要在r里面做这件事...因为我天天上班用r啊，成功地伪装在rstudio的界面里面，就没有人知道我是在摸鱼还是在正经工作了呢。当然，这都是陈年往事了...现在已经不需要背单词了，而且很多单词死记硬背其实没啥效果，最后不会用还是不会用。阅读量上来的词汇才是真的记住了。

不过死记硬背也大概是某个阶段不可避免的吧。不能读一篇文章一直查单词去了。所以这段代码我准备留着，说不定二十年后自己的孩子还能用到呢？谁知道呢对吧。

截图一张留念吧

Tags GRE, R, 机器学习, 背单词

互联网产业观察

NeurIPS 2019的一些观感

前几天有提到，十二月份的时候去NeurIPS 2019晃了一圈。除了开篇那个演讲之外，那周我还去围观了不少其他的东西。NeurIPS开到如今，万人大会，熙熙攘攘地其实挺难甄别信息的。第一次去这种顶级的计算机会议，经验不足，只能按图索骥般地一点点拾遗。

好在，我目标相对明确，并不是一味的去凑热闹的。那些火到爆的GAN之类的，我就只能远远地围观一眼，然后不明觉厉，去找自己相对更能看懂的东西去了。于是，我就很无聊的，去看了两个主题：因果推断相关的，以及隐私相关的。

因果推断这块儿，能到NeurIPS自然是被选择过的，不会是太纯理论的这种。跟机器学习相关的自然是要跳出简单的线性回归了，否则大家写什么呢？其次呢，就是跳出随机试验的框架，否则哪里用得到那么多高深的预测模型呢？七七八八看了不少poster论文，大部分都是各种花样繁杂的算法。努力地去理解他们的做法，然而却哀叹一声，浮沙筑高台，又有多少可以大浪淘沙始见金。（插曲：后面那个causal inference workshop，直接就是Susan-fest...哎，她也算是扛起来一面大旗了。）

隐私相关的，其实是加密+分布式的结合，基本要实现的是在客户端进行计算而不是需要把原始的隐私数据传递到服务器端。于是乎，我们看到了各种基于分布式算法的演化，加一些随机的因素在里面，就得到了一些隐私友好的算法。也挺好玩的，有助于想清楚一些分布式算法的设计。

笔记本身是用英文整理的，直接在这里贴一份好了。

Tags NeurIPS 2019, susan athey, 分布式算法, 加密, 因果推断, 机器学习, 计算机会议, 隐私保护计算, 非线性模型

读书有感

几个有趣的问题

今儿跑代码的百无聊赖的时间，看了一下昨天收藏的周志华老师的一个演讲：Boosting 25周年。链接在这里：

http://vdisk.weibo.com/s/FcILTUAi9m111

对Adaboost之类的我已经忘得差不多了，还好有当年ESL的笔记可以翻翻。看周老师这张slide，基本上是总结了一下集成学习（ensemble learning）的大概思路。

按照这个思路，Boosting类和bagging以及random forests这种都算作ensemble learning了。然后在简单的回顾了adaboost的前世今生之后，抛出来一个有趣的问题：

理论上我们证明了，Adaboost在多轮学习之后会过拟合，可是为什么实践中很少看到过拟合的现象呢？

嗯...然后就是边界理论和统计观点的两种解释...我就不赘述了，大家去看周老师的slides就好。我好奇的其实是，overfitting本身是怎么可以用一个理论的方法来证明的呢...感觉不那么直观呢...好好奇啊，想找点相关的paper来看看，可又怕是另外一个大坑，上周那个实验设计的大坑还没填平或者弃坑呢。

Tags AdaBoost, boosting, ensemble learning, ESL, overfit, 分类器, 机器学习, 过拟合

事儿关经济

说说我所认识的“最小二乘君”（配图版）

由于近些年常常跟搞数据分析的人混迹在一起，所以很多时候说话方式有点偏向机器学习了...顺便心里暗暗的忧伤一下当年的心路历程（不知道我的基本轨迹的可以先去看看CV..）。这里聊作一二记录，讲讲我所认识的“最小二乘法”（下称最小二乘君）。那个，语言稍显浮夸，大家随便看看哈，别较真。

<锲子>

是写小说的时候大家都兴先来个“锲子”么。7年前，我还是一个年幼无知的大学新生儿。当时我们系开了两门传说中各挂50%的数学课：微积分和线性代数。同学们大都学的死去活来，我也学的死去活来，一度开始怀疑自己的智商...其实现在想想，我也不知道当年为什么学的那么痛苦，现在随手用个微积分貌似都很水到渠成的样子。嗯，可能是老师授课方式不够好吧。那年直到期末考试，我也不知道我学了一年的微积分有什么用处，除了背下来少数的几个证明推导和学会了一堆算微积分的“技巧”之外。

挂了很多人的高树...

线性代数也是一样的。当年翻看某本计算机类入门书（可能是算法与数据结构），前言一开始就是一行金字，大意是“矩阵论是当代计算机基础×××”。然后翻翻后面的果然看不懂，于是默默的去图书馆把这本书还了，然后借了一本黄皮的泛着金光《矩阵论》回来。同样悲催的，啥也没看懂，然后默默的放弃了我在这个领域深修的打算，乖乖的回去上必修课了。（所以我当年学习高级计算机知识的一腔热情就被这么无情的浇灭了哇！果断考完当时的计算机等级考试——C语言和数据库就扔掉编程了...）

线性代数一直学到最后，我还是以为这东西就是来替代“高斯消元法”解联立方程式的...什么特征根啊，奇异值分解啊，格拉姆－施密特正交化啊，直到最后我也没明白是干嘛用的，除了会算几个数之外...没想到，那日一别，重逢已是花落花开好几轮之后...当真是良辰美景虚设！只是万万没有想到，他乡遇旧友，而这厮竟和日后的最小二乘君紧密相连，难分难舍。

良辰美景虚设

Tags 一致性, 因果推断, 最小二乘法, 机器学习, 统计学, 统计学习, 计量经济学, 高等数学