Categories
读书有感

飞蛾扑火

想不起来自己什么时候这么壮烈过,我好像从小就是一个偏理智的人。人会有各种各样的情绪,而现在可以越来越会控制自己的情绪,很少过于激动和兴奋,甚至怀疑是不是肾上腺分泌失调了,赶不上兴奋的速度,于是就越来越安静了。

火对于飞蛾,是一种什么样的存在呢?在明媚地摇摆,还是炙热地拥抱,还是忽明忽暗地眨着眼。我不曾经历,自然也无法理解。我不知道飞蛾的眼球是什么构造,会像白鹅那样看什么都是小不点,还是像青蛙似的只能感触移送。我想不出是什么样的执念让飞蛾奋不顾身地飞向火焰,然后燃烧,燃烧,任自己的灰烬和火苗的烟迹混成一缕。

然而扑过了,就过了。此种心迹不会再被复制,也不会再去扑火。伤痕累累,无人幸存。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(五)

鉴于我上周写的[笔记(四)]让很多人反映太枯燥、太无聊(全是公式...可是这就是笔记嘛,又不是写科普文),我努力让这周的笔记除了公式之外多一点直觉和应用层面的点评。

其实[笔记(一)(二)]中说了很多回归和分类器的不同了,那么在经历了线性回归方法之后,就来说说分类器好了。我原来一直觉得回归和分类器没有什么本质不同的...主要是最常用的分类器logit和probit都是我在学计量的时候学的,那个时候老师只是简单的说,这两个和OLS都是一致的,只是我们想让预测值在0~1之内所以做一下变换。而且我们那个时候也不叫他们分类器,而是叫他们“离散被解释变量模型”。前几个月的时候,看data mining的东西,看得晕晕乎乎的,就跑去问精通此类模型的同事MJ,让他跟我科普了一下午为什么这两个模型大家更经常称之为分类器...汗颜啊,那个时候我才知道原来machine learning是先分supervised learning and unsupervised learning,然后才是 regression v.s. classification, and clustering...疏通了脉络之后,再看《The Elements of Statistical Learning》这本书,就觉得顺畅多了。以前只是零零散散的接触一个个孤立的模型,没有找出一个脉络串起来过,自然也就不知道分别适用于什么场景。

其实我挺想说的是,从econometrics到data mining,远远没有想象的那么简单。数学工具上或许很顺畅,但是思维上的转变还是需要时间和实践的。真是为难坏了我这个学经济学出身的孩子(其实话说回来,我好好的不去研究经济学,好奇什么data mining呀~只能聊以一句“殊途同归”来搪塞自己,对嘛,反正都是doctor of philosophy, 只要是科学,本质的思考方式应该是相通的)。不过搞清楚之后,还是觉得很好玩的——以前是雾里看花,觉得什么都漂亮;现在渐渐的能够分清楚这些美丽之间的差异了,也算是个小进步吧。

再有个小废话...记得上小学的时候,老师问大家“长大了想做什么呀?”,我们总是会特别有出息的回答“科学家~”。那个时候有门课叫做《自然》,老师总给我们讲各种各样的发明,让我们一度觉得这个世界上的问题都被解决完了,还当什么科学家啊。然后老师就给我们讲哥德巴赫猜想,大意是世间还有那么几个悬而未决的皇冠问题,等待大家长大了去攻克。后来,越读书越发现,有那么多问题人们是不知道答案的,只是从 ambiguity -> uncertainty -> possibility -> probability -> certainty (law)一步步的走下去。有那么多问题,其实都是悬而未决的哲学问题,等待着聪明的大脑去回答。这也是越读书越觉得兴奋的缘故吧,越来越多的时候老师会被问倒,然后说“不知道”...然后好奇心就又开始勃勃生长...然后又发现更多的很好玩但没有答案的问题...周而复始,有意思的很。

-------满足大家的八卦之心之后,笔记开始-------

线性分类器

对应原书第四章。

先是来一点直觉上的东西:分类器顾名思义,就是把一堆样本归到不同的类别中去。那么这类模型的几何直觉是什么呢?很简单,空间分割嘛。最直白的,我们有一群人,组成了一个大的群体。然后现在要把大家归为男女两类,那么空间自然就是被分割为两个子空间——男和女了。

线性分类器是什么呢?分割男和女的时候,可能分割是三个一群,五个一簇的,所以非要画分割的界限的话,八成是山路十八弯的...我们以前说过,这类的模型问题就是可能复杂度比较高(比如参数的个数较多),导致就算训练误差小,测试误差不一定小。所以呢,我们希望这个分割界限是直线的(二维平面下)、或者平面的(三维空间中),或者超平面的(高位空间中),这样就比较清晰明了的感觉了。

线性分类器:logit模型(或称logistic regression)

这里也不完全是按照吴老师上课讲的东西了,因为回头再看这本书会发现书中还有一些很好玩的直觉很强的东西。错过不免可惜,一并收纳。

首先换一下记号~我们在前面都用代表被解释变量,从现在开始对于分类问题,我们改用

logit模型下,考虑最简单的分为两类,我们有

所以有

这样,分别属于这两组之间的比例就可以找到一个线性的边界了(注:log为单调变换~不影响结果)。这样变换的目的其实无非是,保证,而且两个比例之间存在着一种线性的、或者可以通过单调变换成为线性的关系。类似的当然是大名鼎鼎的probit模型,思路是类似的。

损失函数

显然线性分类器下,在有很多类的情况中,损失函数定义为OLS的残差平方和是没有多大意义的——分类取值只是一个名义量。所以,这里用0-1损失函数:如果,那么损失函数=0;否则,就是没预测准,损失函数=1。写为数学形式,就是损失函数定义为:

所以我们的目标就是,最小化损失函数的期望:

(条件期望迭代)。

LDA:linear discriminant analysis(贝叶斯意义下)

从贝叶斯的角度,我们有

为k出现的概率。

假设X服从联合正态分布,那么我们有

再假设协方差矩阵,所以我们比较两类的时候有:

这样就形成了一个x的线性方程,所以我们找到了一个超平面,实现了LDA。

实践中我们需要估计联合正态分布的参数,一般有,其中为分类k出现的样本数;,即这个样本中,x观测值的平均数;

Fisher视角下的分类器

Fisher提出的观点为,分类器应该尽量使不同类别之间距离较远,而相同类别距其中心较近。比如我们有两群,中心分别为

,那么我们希望尽量大,同时群内方差

尽量小。通过对x进行投影到,我们可以化简的得到

。这样一来,我们的准则就是:

由于是正定阵,所以我们可以进一步写为

其中的特征向量。最终可以求的,最优的正是的最大特征向量。

说实话,我对LDA(或者QDA)的理解都非常有限...这本书里面还有一节说到LDA和logit怎么选,我也是大概看了一下没有特别的看明白...笔记只是如实记录,海涵。暂时还不知道讲到Fisher到底是想讲什么...理解力好有限,唉。

------最后的碎碎念------

除了统计学习精要,Coursera的Model Thinking也终于结课了,做完了期末考试卷,感觉心里空空的。这门课真的是开的非常深入浅出,覆盖了这么多学科、问题的各种模型,非常有助于逻辑思考和抽象。只是多少有些遗憾的,很多东西来不及细细回味,听过了视频就忘了,没有努力的去理解那些模型背后的逻辑。这也是导致最终的期末考试做的不怎么好的缘故——我不想去翻课堂视频或者笔记,只是想考验一下自己对于这些模型的理解和记忆能力。事实证明,除了那些跟经济学或者数学紧密相关的模型,其他的都多多少少记得不是那么清晰了。过阵子应该好好整理一下这门课的笔记,算作是一个良好的回顾吧。

不知道为什么,工作之后再去学这些东西,真的感觉力不从心的时刻多了很多。这半年只有这么区区两门课,就让我觉得有时候不得不强迫自己一下赶上进度,强迫的手段之一就是在落园开始写连载(大家容忍,谢谢~)。不过为了保持一个基本的生活质量,还是应该不时看看这些新东西的,要不生活都腐朽了。

Categories
我的生活状态

单一的色调

或许单调这个词儿就是“单一的色调”或者“单一的音调”的简称吧,不知道英文中的monotone到底是怎么个来源的。总之,单调说明了生活模式的不变,或者说没有什么波澜或者惊喜,只是按部就班的,每日如一。

连续三天,每天泡在学校敞亮的计算机室里面,不知疲倦的写和改paper。记得刚开始的时候觉得mac机真的是很惊艳啊,后来发现也就是这么回事儿,长得漂亮不是就可以靠长相一辈子卖饭吃的。哎!

文章写到最后,真的是越写越恶心,恶心到每天早晨都是被一场关于paper的噩梦惊醒,然后强迫自己继续打开电脑写paper。真的是很无聊哎!人生啊,难道不是应该更加丰富多彩一些的么?这样说来我也有点庆幸不是在读phd了,要不每天都是看论文写论文的,这日子真的,怎么过啊!不知道为什么,开始怀念上学期那种忙忙碌碌奔波于不同的课堂之间的感觉,看来上课还是相对而言轻松的很多啊。这学期,课少了,又经历了一些打击,弄得我现在真的是只想早点毕业早点完事,然后好好的狂欢一些时日。说实话,真的挺怀念大学的时候开始初识经济学那段日子,可以不知疲倦的从图书馆里面一本又一本的把书搬回来,然后一副向往的神情好好敬仰。现在则多多少少有点审美疲劳了?越来越找不到激情了,希望不是我老了。

记得考试的时候总觉得上课的日子是幸福的,然后后来申请出国的时候觉得能用考试解决的东西真的是最简单的(比如gre托福之流),后来出来了发现当年申请的日子还是蛮幸福的。总之,一层一层的,抽丝剥茧似的,体味着生活变得越来越艰难的滋味。了解的越多,就越不知所措了。有的时候真的是,井底之蛙也不是一件坏事——有些事如果从来不曾意识到,就不会去比较, 也就不会有各种比较带来的烦恼了。从这个意义上而言,站的高看得远也不尽然是一件好事情,毕竟人难免是贪心的,看到了就想要,哎。

最近看了很多很多书,主动的或者是被动的,但是缺乏与人交流的畅快感,经常只能半夜在自己屋子里面瞎兴奋一气,感慨这个作者这么这么有才华,或者这个故事居然可以是这样的。当然我不是指纯文学层面的东西,只是发现现在自己越来越能忍受文字本身的无聊,静下心来看故事了。记得小时候,从来都只是看情节的,最爱的自然是武侠小说之流。然后就是诗词,另一个极端,简短抽象,不过可能更多的是一种心灵的抒发和喜欢沉浸在想象中的那种美好吧。终于发现人还是一种群居的动物,总得有人经常说说话才行,要不也不会很多人总是在忍不住的泡校内之流了——孤单啊孤单啊。从这个意义上来说,现在的我也可谓是孤单的, 要不怎么会有心情在这里码字?

不知到周五晚上大多数人都在干什么?大概是各种各样的狂欢吧。其实狂欢只不过是一群人的孤单——聊以自慰。

不过无论如何,都会有个结果的。六月,嗯,流光溢彩吧。