Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十一)

上海的冬天越来越冷了,这门课也越来越临近这学期结束了。这节课公式推导不多,有也是那种烂熟于胸无数次的,所以可以稍稍歪楼,不时掺杂一点八卦什么的。

BootStrap

1. 定义

BootStrap的基本思想就仨字:重抽样。先开始八卦~

跟高斯窥探天机猜出来正态分布的密度函数表达式相似,Efron搞出来BootStrap的时候,大概也在偷偷的抿嘴而笑吧。“上帝到底掷不掷骰子呢?”,每次我们都在揣测天意,也是现在越来越有点理解为什么牛顿老先生晚年致力于神学了。每当我们猜中一次,就会有一个新的突破到来。BootStrap思想简单到如斯,以至于我的一位朋友在当高中老师的时候(可惜是美国不是中国),就尝试着跟 teenagers 介绍BootStrap思想了(貌似用的还是Econometrica上的一篇文章,我瞬间声讨“你们这群高中老师真凶残-_-||)——结果显然是我多虑了,那群熊孩子居然表示理解毫无压力!可见BootStrap这个东西是有多么的平易近人。什么测度论什么高等代数都不需要,会摸球就可以了!

顺便抄一下杨灿童鞋《那些年,我们一起追的EB》上的一段八卦:

五十多年前,Efron为 Stanford 的一本幽默杂志 Chapparal 做主编。那年,他们恶搞 (parody) 了著名杂志Playboy。估计是恶搞得太给力了,还受到当时三藩的大主教的批评。幽默的力量使 Efron 在“错误”的道路上越走越远,差点就不回Stanford 读 PhD 了。借用前段时间冰岛外长的语录:“Efron 从事娱乐时尚界的工作,是科学界的一大损失!”在关键时刻,Efron在周围朋友的关心和支持下,终于回到 Stanford,开始把他的犀利与机智用在 statistics 上。告别了娱乐时尚界的 EB,从此研究成果犹如滔滔江水,连绵不绝,citation又如黄河泛滥,一发不可收拾...

所以说嘛,天才之人做什么都是能闪光的,Efron从事科学界的工作,怕也是美国几亿人民周末娱乐的损失吧。好了,满足了你们这群越来越挑剔的读者八卦的胃口了,开始正儿八经的说BootStrap。

我们有观测数据集,然后对这N个样本,进行有放回的重抽样。每轮我们还是抽N个,然后一共抽B轮(比如几百轮,话说前几天weibo上有人问“如果给你一万个人,你要做什么”,放在这里我就要他们不停的抽小球抽小球抽小球,哈哈!)。这样就得到了新的观测样本

2. 应用

BootStrap几乎可以用来干各种合法的不合法的事儿,只要是跟数据估计有关的...这就如同你问一个画家,“什么最好画?”“上帝和魔鬼,因为大家都没有见过。”大家都没有那么明确的知道BootStrap的界限在哪里,所以BootStrap就被应用在各种跟估计有关的地方了。

在统计学习中,我们最常用的可能就是估计精度:对于每一个,我们都可以得到一个预测函数,然后就对于给定的,有B个预测值,这样就可以做直方图什么的,还可以排排序算出来的置信区间。

最大似然估计(MLE)

我们有一族密度函数,其中为参数集,可不止一个参数。按照概率的定义,我们有,而且

数据方面,我们有一组数据,为\emph{i.i.d}(独立同分布)。

这样就可以写出来似然函数: ,从而可以写出来对数似然函数:。接下来驾轻就熟的,我们就有最大似然估计量:

最大似然估计之所以这么受欢迎,主要是他有一个非常好的性质:一致性,即当,估计值收敛于真值

仅仅渐进一致还不够,我们当然更喜欢的是MLE的附加优良性质:渐进正态,即,其中称为信息矩阵,定义为。实际中,如果我们不知道真值,则会用估计值来代替正态分布中的参数。(没想到事隔这么多年,我居然又手动推导了一遍MLE...真的是,我跟统计的缘分怎么这么纠缠不断呀)。

MLE大都要求数值解的,少数情况下可以求解解析解。比如正态分布。

正态分布的密度函数为:,所以我们有对数似然函数:

还有一个特例是正态线性回归模型(Gauss-Markov),即,其中,这个就和OLS的BLUE性质蛮像了,MLE和OLS对于此种情形估计值是完全一样的。所以说高斯王子在搞出OLS的时候,也是各种深思熟虑过的...揣测上帝的“旨意”也不是件信手拈来的事儿的。

简单情形下,我们可以直接求得估计量的置信区间,但是在复杂的情形下,就只能用BootStrap了。人们的思路就从传统的数学推倒,越来越多的转换到计算能力了。有的时候稍稍感觉这更符合统计学的思维——归纳嘛,这也是统计学在computer

area和数学渐行渐远的表现之一么?

吴老师总结了一句话:BootStrap类方法,就是思想简单、实际有效,虽然不知道为什么...

模型平均

模型平均也是有点延续上面的BootStrap思想,就是我有很多重抽样出来的模型之后,要怎么平均这些结果来找出最优模型的。

1. Bagging方法。 这个就有点直截了当了。利用BootStrap,我可以,然后自然收集了一堆,所以简单一点就平均一下:

2. Stacking方法。这个就稍稍动了一点心思,直接平均看起来好简单粗暴呀,还是加权平均一下比较细致一点。所以:,其中权重。实际操作中,的选取也是一个蛮tricky的事儿。可以利用validation集来优化...

3. Bumpping (优选)方法。,即在所有的中,选择最好的那个,使得一定标准下的损失最小。

话说,Machine learning或者统计学习,无非就是四件事儿:数据(D)、函数族()、准则()、算法(A)。说来说去,每一样改进都是在这四个的某一方面或者某几方面进行提升的。

Categories
读书有感

The world is FLAT! [4th week, Nov]

今天一觉睡到下午6点,准确的说应该是中午吃完饭又睡着了……然后懒洋洋的打开邮箱,淹没在满目的英文中(话说,我的中文最近退化的厉害,我强烈感觉每天用英文写的东西绝对比中文多的多的多!!!),然后突然间很兴奋的发现一封邮件!!!

一个外国人,名字怪怪的,姓的第一个字母L左边竖上还有一个小点,鬼知道是哪国人。还好他写的是英文(要不我肯定直接当垃圾邮件删掉了),然后我就饶有兴致的看起来这封信。不是很长,他告诉我它通过Google搜索到了我的英文博客(不是中文博客哦),然后发现了我的一个Manuscript(也就是未成文的ideas),对那个topic很感兴趣,问我有没有什么相关的资料。我当时那个兴奋啊!我那篇topic是关于虚拟世界里面的通货膨胀问题的,结果貌似周围没有几个人对这个topic感兴趣,自己也没找到新的idea(我得好好补补宏观),就搁置在那里了。这次终于有个老外被我钓上来啦,哈哈!当时的心情只能用一个词儿来形容:喜悦之情溢于言表。

也就是说,我辛辛苦苦建立起来的英文博客虽然更新不多(-_-)但是还算有用的,嘿嘿。真是见证了弗里德曼(是那个记者不是那个经济学家)那本著名的书的题目:The World Is Flat! 通过互联网一切都有可能!!!

不过度兴奋了,说说前几天就一直想写(可惜博客挂掉)而没写成的东西。是Taiyun推荐给我的一本书《西方文化中的数学》([美] M·克莱因著)。当时刚从图书馆借出来,心里就凉了半截:咋这么厚啊!书还被前面那些厚颜无耻的阅览者画得面目全非——拜托,有点公德好不好,谁不知道你家荧光笔多啊,不用到这里来显摆!

而后这周开始我就经常背着它去某些着实无聊但又不得不去的课,不时翻开看看,读个一两章而后休息休息。这本书真的写的很好,翻译的也不错。我原来认为数学一直是不注重历史脉络的,但读这本书,从柏拉图到毕达哥拉斯、欧几里德、欧拉、拉普拉斯、笛卡尔、柯西、达尔文、拉格朗日、哥白尼、牛顿等等,我还没看到高斯就已经完全沉浸在一种数学和哲学的美丽之中了。这些耳熟能详的名字伴随着整个人类对于世界认知的发展,一切一切都显得那么的顺理成章。原来,数学也不是站在巨人的肩膀上就不用管以前发生了什么的……数学的历史、或者更确切的说、哲学的历史,也是也有意思的。

现在大致读了一半有余,由开始的随便翻翻到现在的敬仰之情滔滔不绝,我开始越来越深的被这本书的思维影响着。原来一直知道数学很神奇,但是都是懒洋洋的学一些解法,并没有试图真的去用数学的思维看待一些问题。原来只是敬仰数学王子高斯,现在则觉得他最伟大的地方就是无与伦比的抽象能力。而这种能力,源于对生活的深刻洞见,这么拨开云雾见天明、透过表面看实质的思维,着实意味深远。

不想再多说什么,每一章其实都有能拉出来扯好多东西的内容,如果我再写下去估计就成了一本更厚的评注(浅薄的读后感而已)了。还是那句话,临渊羡鱼不如退而结网,有志之士理应亲自翻开一阅。

还有很多很多事儿,今儿悍然的发现居然把信用卡刷爆了……今儿下午也很囧的发现把自己用英文写的东西翻译为中文后几乎不通顺(强烈怀疑是不是自己写的!!!)……而后又把下周上课的课件弄完了。博弈论好讲,可是福利经济学实则是我的软肋。试试看吧。