落园 – Page 46 – 来者皆客

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十六）

Post author By Liyun
Post date March 30, 2013
11 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十六）

第十五章随机森林(Random Forest)

终于讲到这个神奇的算法了...若是百年前的算命术士们知道有此等高深之术，怕是要写成一本《随机真经》作为武林宝典世代相传了吧？猜得准才是王道嘛。

p.s. 以前没看过的童鞋不要急，这节课只是从boosting直接跳讲到十五章，并不是已经快结课啦。

---------------

1.定义和算法

算法：

1. For b = 1 to B
- 生成一个自生样本(via bootstrap)
- 由生成树:
  - 随机选取m()个变量（相应的，取了m维子集）。一切的神奇都在于这里是随机降维的。
  - 由生成树。
输出(即森林）。

随机森林算法的参数主要就是决策树的参数，用来控制树的生长的：保证每个叶子中的实例数不大于。

应用

1) 回归在回归的情况下采取均值，最终输出的就是.

2) 分类分类的情况下进行投票，，得票最多的那类获胜。

参数

总结的来看，参数主要有如下几个：

B：试验次数。一般为几百到几千，所以是computational intensive.
m：降维的力度。作者建议回归的情况下采用，然后分类的情况下采用。
：建议回归的时候设为5，分类的时候设为1（彻底分到底）

伪代码

其实上面已经写的比较清楚了...我只是再抄个伪代码过来而已。

select m variables at random out of the M variables

For j = 1 .. m

If j'th attribute is categorical

(see Information Gain)

Else (j'th attribute is real-valued)

(see Information Gain)

Let (this is the splitting attribute we'll

use)

If j{*} is categorical then

For each value v of the j'th attribute

Let = subset of rows of X in which . Let

= corresponding subset of Y

Let = LearnUnprunedTree

Return a decision tree node, splitting on j'th attribute. The number

of children equals the number of values of the j'th attribute, and

the v'th child is Childv

Else j{*} is real-valued and let t be the best split threshold

Let = subset of rows of X in which . Let

= corresponding subset of Y

Let = LearnUnprunedTree

Let = subset of rows of X in which . Let =

corresponding subset of Y

Let = LearnUnprunedTree

Return a decision tree node, splitting on j'th attribute. It has two

children corresponding to whether the j'th attribute is above or below

the given threshold.

2. 为什么要“随机”

bootstrap：通过多次重抽样减小误差。

考虑下面的情况：

1) 为随机变量，且,。

(i)当相互独立的时候，，且。

(ii)当相互不独立的时候，我们有。这样接下来就有

如斯，仅使用bootstrap的话压缩的是方差的第二部分，而随机选的的M可以减小样本之间的相关性，从而减少不同树之间的相关性。

2）OOB(out of bag)实例

OOB的概率：。这样就是说，在一次抽样中约有1/3的样本没有被抽到。

两次bootstrap抽样的话，样本约有40%的重叠，这样的重叠概率会影响到上面的(ii)中，两次抽样得到的样本重叠很高，相互不独立。

这样我们用67%的样本训练数据，用剩下33%来测试。

3. 其他应用

1)变量的重要性（feature selection，俗称的特征选择）

第一种方法可以和上节课梯度树那里的一样，用来刻画变量的重要性。

第二种方法则是比较有意思。对于一棵树，我们用OOB样本可以得到测试误差1。

OOB样本大概长成这个样子：

，样本量足够大的情况下。

然后随机改变OOB样本的第j列：保持其他列不变，对第j列进行随机的上下置换，得到误差2。至此，我们可以用误差1-误差2来刻画变量j的重要性。当然这里loss function可以自己定。这里的大致思想就是，如果一个变量j足够重要，那么改变它会极大的增加测试误差；反之，如果改变它测试误差没有增大，则说明该变量不是那么的重要。（典型的实用主义啊！管用才是真，才不管他什么证明不证明呢！自从开始接触机器学习的这些算法，我真的是被他们的各种天真烂漫的想法打败的一塌糊涂，只要直觉上过得去、实际效果看起来比较好就可以了呢，规则真简单）。

2) 相似图(proximity plots)

除了用户变量选择之外，Random Forest也可以给出各个观测实例之间的相似度。

Proximity plots记作在一个叶子结点同时出现的次数，其实大致就是一个相关性矩阵的样子。思想其实就是，如果两个观测样本之间比较相关，他们在树分枝的过程中就比较难以分开，所以会经常一起出现。我们故而可以用一起出现的次数给这种相似程度打分。

树类算法

至此，我们大概一口气过掉了所有跟树相关的算法。

先是单一的决策树，然后是基于已有弱分类器的改良算法，比如梯度树，然后就是和梯度树不相伯仲的随机森林。我感觉随机森林真的是起了一个好名字，在我没学机器学习之前就听到无数人跟我说起随机森林，而梯度树却只是正儿八经开始看了才记住的名字...

下下周开始，会依次讲到神经网络和SVM...看来supervised learning就快拉上帷幕咯。

Tags boosting, bootstrap, GTBA, oob, out of bag, proximity plots, supervised learning, 决策树, 分类器, 变量选择, 损失函数, 有监督学习, 树模型, 特征选择, 相似图, 相关性矩阵, 统计学习, 统计学习精要, 随机森林

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十五）

Post author By Liyun
Post date March 23, 2013
3 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十五）

梯度树提升算法(GTBA, gradient tree boosting algorithm)

继续boosting类算法哎。小小预告一下，下节课会直接跳到随机森林，老师貌似是想把各种分类器都一下子讲到，然后有点前后照应的比较～真有意思，若是以前扔给我这种问题我肯定run一个logit regression就不管了，现在倒是有各种线性的、广义线性的、非线性的模型可以试着玩了，爽哎～

------------------

1. 自适应基函数模型

小小的复习一下上节课那个框架。

1. 数据。

2. 模型。为基函数模型，其中成为基函数集合。为参数。

3. 损失函数（准则）。为损失函数，然后就转为一个优化问题：

4. 算法。前向分步算法。

初始化：
迭代：For m=1 to M，
令。
输出。

在此框架之下，除了上节课的Adaboost之外，还可以套用多种其他的基函数，然后1）定义损失函数 2）给出迭代那一步的优化算法，就可以实现一种boost提升算法了。

2. 应用回归问题

先采用均方误差的损失函数，定义，这样就可以得到

然后定义：

，。这里之后用回归树来求的话，就是梯度回归树算法。

梯度回归树提升算法

初始化：
迭代：For m=1 to M，计算。由用回归树求得.
令。
输出。

3. GTBA，梯度树提升算法

先吹捧一下：这个算法就是此书作者本人开发的，然后已经搞出来了软件包，可以做回归也可以做分类，貌似效果还胜过随机森林（当然是作者自己给出的那些例子...）。

损失函数为可微的。

我们的优化目标是，也就是说实际上我们不是直接对进行优化，而是仅仅在所有观测的数据点上优化，所以仅跟在这些观测点上的值有关。感觉这里就是说，我们使用有限的观测到的信息来推断一个连续的函数，然后类推并用于其他未观测到的点。

定义：

，这样这个问题就从一个直接优化的泛函问题转化为一个优化多元函数的问题...而对于一个多元函数，我们可以直接用梯度下降法。定义梯度为：

，这样。类似的，我们可以定义，其中。累加起来，就是

，这里可以是常量也可以随着改变。

定义完梯度下降之后，就是GTBA算法了。

初始化。
迭代：For m=1 to M，计算，然后由用回归树求得。
令。
输出。

一些梳理

1. 参数。这里显然有如下参数需要设定：

M：迭代次数。这是这个算法最主要的参数，需要用Cross-validation来算。
J：树的大小。建议4-8，默认为6。
：收缩系数。这里可以加上这个参数，决定收缩的速度，0-1之间。
：次采样率，0-1直接，默认0.5。用于做subsampling。

2. 特征变量评价

这个算法的一大优势就是可以给出各个自变量的评价。比如的时候我们可能面临特征变量选择问题。

用t表示树中的节点，表示t节点所用的变量，表示t节点产生的均方误差的减小值。之后定义：

，可用这个值来刻画变量的重要性，从而进行特征评价。

3. 通用工具

该算法对于数据无特殊要求，有一批都可以扔进去试试，故可以作为其他算法的benchmark。

此外，从贝叶斯分类器的角度，我们要找的是，这样除了原有可以观测到的之上，还可以衍生出一个向量，即，第k个位置为1如果观测到的对应第k类。一下子就可以扩展整个数据集，也可以进一步对每类都赋一个概率，不单单是0-1这样。

Tags boost, boosting, GTBA, 分类器, 前向分步算法, 回归树, 基函数, 广义线性模型, 损失函数, 提升, 梯度, 梯度下降, 梯度树提升算法, 统计学习, 统计学习精要, 自适应基函数模型, 贝叶斯分类器

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十四）

Post author By Liyun
Post date March 19, 2013
15 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十四）

开春，复课。

一句无关的话...今天打开Google Reader看到7月份要关的提示，无限悲伤。看着落园若干RSS源里面累计800+的读者，只能说句bless...2008年开始使用，到现在，伴我度过了多少读书时光呀。不过确实也衰落了，高峰的时候一个RSS源就有600+读者，现在也只剩一半了。写博客，越来越像一件出力不讨好的事情了。

--------正文开始---------

提升与梯度树

1. Boost(AdaBoost)

这里讲的AdaBoost是仅针对二类分类器的提升。大致的思想就是，给我一个弱分类器，还你一个强分类器。听起来蛮神奇的对不对?

先说算法实现。

第一步：初始化。,权重初始值。

第二步：迭代。

for m = 1 to M

根据已有算法（即弱分类器）和{}得到一个分类器.
计算误差：，这里我们把权重进行归一化。
计算权重：
修改样本权重：

也就是说，我们不断的生成新的权重，当分类器分错的时候更改权重。

第三步：输出。最终的分类器为前面的加权。

这样就实现了从一个弱分类器改善到一个强分类器。这里弱分类器是指误差比随机猜的1/2少一点。

另注：在修改权重那一步的时候，也可以定义，然后，这样在最后的时候也可以改成。总之这里的直觉是，如果分对了，那么权重下降；反之，分错的时候这些样本的权重上升。最后take average就可以了。

2. 自适应基函数模型、前向分布算法

之所以上面又引入，便是为了更好地理解这一类模型：自适应基函数模型。

1. 我们称为基函数模型，其中成为基函数基。注意这里和GLM有很大的不同，广义线性模型后面的为确定的。

2. 前向分步算法。

数据集记作。定义一个损失函数，比如常见的均方误差,

，或者0-1准则。

然后步骤为：

初始化：
迭代：For m=1 to M，
令。
输出。

这样我们就把这个最优化问题转变成了M步，每步只做一个参数的最优化（近似方法）。

3. 指数损失函数与AdaBoost

有了这么一个一般性的框架，我们就可以套用具体的形式。

1. 定义指数损失函数：。

2. 两类分类、指数损失函数的自适应基函数模型。

前向分布算法：

(i)

定义

这样上式就可以化作

(ii) 固定，优化.

然后最小化，则。假定已被优化，然后继续。

(iii)优化。

取一阶条件FOC，则有

这样最后

这样就看出来上面那个AdaBoost里面的是怎么来的了吧?

(iv) 回到AdaBoost

看出来最后的AdaBoost雏形了吧？

Tags AdaBoost, boost, boosting, 分类器, 前向分步算法, 基函数, 广义线性模型, 指数损失函数与, 提升, 统计学习, 统计学习精要, 自适应基函数模型

些许欢笑

Les Misérables - dream back to Paris

Post author By Liyun
Post date March 10, 2013
2 Comments on Les Misérables - dream back to Paris

一句话评价： It made my day.
再罗嗦一句的话：我真的经不起诱惑，朋友一条短信就成全了我这个完美的周末。

看到影片结束，才恍然意识到这是Hugo的著作...我说为什么觉得名字那么似曾相识，又为什么对着这两个法语单词不觉得陌生。当年在巴黎的Panthéon里面，毫无意识的就走过了雨果的墓穴，然后被朋友提醒才恍然间如梦初醒，一路小跑奔回雨果墓棺前，呆呆的愣了好久。

Les Misérables也上映了有一段时间了，但是一直没有特别想着去看。如是没有靠谱朋友提醒，我怕就会错过了吧。还好，运气不错。进入电影院，一开始稍稍有点茫然，后来开始渐渐的喜欢起来音乐剧的唱腔。没有想到这部片子从头到尾都是音乐剧，本以为会偶尔有些间断的来着。对于音乐剧男高音的迷恋来自于前段时间看To Love in Roma的时候，某个男角色洗着澡引吭高歌...那声音的浑厚和穿透力，瞬间打败了银幕前的我。

我承认，没有看过舞台版的Les Misérables是这次看电影的硬伤，一边欣赏音乐一边脑补剧情，这个真心来不及兼容并纳呀。就这样，随着音乐，快乐着你的快乐，悲伤着人们的悲伤。当do you hear the people sing 第二次在那个小孩子口中唱出来的时候，瞬间眼泪就开始打转儿...这不，现在还在听着这首Hoor Je 'T Zingen Op De Straat?(法语版，我只是想体味一下原始的法兰西风味，虽然英语版已经是绝对经典了)在这里试图多多捕捉一点当时的悲伤呢。（p.s. 法语烂到家是硬伤...连蒙带猜才找到这个法语版）

爱死了这个孩子第二次唱响do you hear the people sing的那个时刻

从视觉的角度，好喜欢这部电影里面的特写（虽然有人说是毁誉参半）。我觉得这才是电影特有的冲击力，不同于舞台剧，特有的冲击力。还有那些巴黎城景的速写，一下子好像就回到了那个十九世纪的巴黎。现在越来越遗憾两年前去巴黎的时候对这座城市太过于无知了，现在倒是越来越希望可以重走一遍，拾起一些片段或者回忆。无论悲伤，或是欢喜。那是巴黎。那种向往自由的精神，永远让人震撼。

下次去纽约，或者伦敦，或者巴黎，一点要去歌剧院重温一下这样的味道。

Tags do you hear the people sing, Hugo, Les Misérables, Paris, 歌剧, 特写, 电影, 自由, 舞台, 雨果, 音乐剧

网络新发现

那些毫无节操的经济学研究（一）：JJ尺寸与经济增长？

Post author By Liyun
Post date March 8, 2013
5 Comments on 那些毫无节操的经济学研究（一）：JJ尺寸与经济增长？

无聊的时候读几篇paper提提神总是好的...太严肃的看久了，还是找点调节操的吧。

source一般是weibo...神人出没之地呀！

第一篇就是：

Male Organ and Economic Growth: Does Size Matter?Tatu Westling, University of Helsinki and HECER

嗯，人家作者就是扛着卫生经济学(health economics)大旗的啦~所以有这么篇文章不是很正常么？

结果发现，JJ大小和经济发展水平居然是倒U型相关的。嗯...如果想要知道JJ大小到底是遗传基因还是后天营养（经济发展水平较高的国家营养一般会更好）的影响大，是不是可以研究一下发达国家的亚裔移民后代相比于他们父亲的penis size的generation difference呢?

仅供娱乐，认真就不好玩了。

Tags 卫生经济学, 无节操, 经济学研究, 网络新发现, 重口味