落园 – Page 50 – 来者皆客

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十一）

Post author By Liyun
Post date December 21, 2012
2 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十一）

上海的冬天越来越冷了，这门课也越来越临近这学期结束了。这节课公式推导不多，有也是那种烂熟于胸无数次的，所以可以稍稍歪楼，不时掺杂一点八卦什么的。

BootStrap

1. 定义

BootStrap的基本思想就仨字：重抽样。先开始八卦~

跟高斯窥探天机猜出来正态分布的密度函数表达式相似，Efron搞出来BootStrap的时候，大概也在偷偷的抿嘴而笑吧。“上帝到底掷不掷骰子呢？”，每次我们都在揣测天意，也是现在越来越有点理解为什么牛顿老先生晚年致力于神学了。每当我们猜中一次，就会有一个新的突破到来。BootStrap思想简单到如斯，以至于我的一位朋友在当高中老师的时候（可惜是美国不是中国），就尝试着跟 teenagers 介绍BootStrap思想了（貌似用的还是Econometrica上的一篇文章，我瞬间声讨“你们这群高中老师真凶残-_-||）——结果显然是我多虑了，那群熊孩子居然表示理解毫无压力！可见BootStrap这个东西是有多么的平易近人。什么测度论什么高等代数都不需要，会摸球就可以了！

顺便抄一下杨灿童鞋《那些年，我们一起追的EB》上的一段八卦：

五十多年前，Efron为 Stanford 的一本幽默杂志 Chapparal 做主编。那年，他们恶搞 (parody) 了著名杂志Playboy。估计是恶搞得太给力了，还受到当时三藩的大主教的批评。幽默的力量使 Efron 在“错误”的道路上越走越远，差点就不回Stanford 读 PhD 了。借用前段时间冰岛外长的语录：“Efron 从事娱乐时尚界的工作，是科学界的一大损失！”在关键时刻，Efron在周围朋友的关心和支持下，终于回到 Stanford，开始把他的犀利与机智用在 statistics 上。告别了娱乐时尚界的 EB，从此研究成果犹如滔滔江水，连绵不绝，citation又如黄河泛滥，一发不可收拾...

所以说嘛，天才之人做什么都是能闪光的，Efron从事科学界的工作，怕也是美国几亿人民周末娱乐的损失吧。好了，满足了你们这群越来越挑剔的读者八卦的胃口了，开始正儿八经的说BootStrap。

我们有观测数据集，然后对这N个样本，进行有放回的重抽样。每轮我们还是抽N个，然后一共抽B轮（比如几百轮，话说前几天weibo上有人问“如果给你一万个人，你要做什么”，放在这里我就要他们不停的抽小球抽小球抽小球，哈哈！）。这样就得到了新的观测样本。

2. 应用

BootStrap几乎可以用来干各种合法的不合法的事儿，只要是跟数据估计有关的...这就如同你问一个画家，“什么最好画？”“上帝和魔鬼，因为大家都没有见过。”大家都没有那么明确的知道BootStrap的界限在哪里，所以BootStrap就被应用在各种跟估计有关的地方了。

在统计学习中，我们最常用的可能就是估计精度：对于每一个，我们都可以得到一个预测函数，然后就对于给定的，有B个预测值，这样就可以做直方图什么的，还可以排排序算出来的置信区间。

最大似然估计（MLE）

我们有一族密度函数，其中为参数集，可不止一个参数。按照概率的定义，我们有，而且。

数据方面，我们有一组数据，为\emph{i.i.d}（独立同分布）。

这样就可以写出来似然函数：，从而可以写出来对数似然函数：。接下来驾轻就熟的，我们就有最大似然估计量：。

最大似然估计之所以这么受欢迎，主要是他有一个非常好的性质：一致性，即当，估计值收敛于真值。

仅仅渐进一致还不够，我们当然更喜欢的是MLE的附加优良性质：渐进正态，即，其中称为信息矩阵，定义为。实际中，如果我们不知道真值，则会用估计值来代替正态分布中的参数。（没想到事隔这么多年，我居然又手动推导了一遍MLE...真的是，我跟统计的缘分怎么这么纠缠不断呀）。

MLE大都要求数值解的，少数情况下可以求解解析解。比如正态分布。

正态分布的密度函数为：，所以我们有对数似然函数：

还有一个特例是正态线性回归模型（Gauss-Markov），即，其中，这个就和OLS的BLUE性质蛮像了，MLE和OLS对于此种情形估计值是完全一样的。所以说高斯王子在搞出OLS的时候，也是各种深思熟虑过的...揣测上帝的“旨意”也不是件信手拈来的事儿的。

简单情形下，我们可以直接求得估计量的置信区间，但是在复杂的情形下，就只能用BootStrap了。人们的思路就从传统的数学推倒，越来越多的转换到计算能力了。有的时候稍稍感觉这更符合统计学的思维——归纳嘛，这也是统计学在computer

area和数学渐行渐远的表现之一么？

吴老师总结了一句话：BootStrap类方法，就是思想简单、实际有效，虽然不知道为什么...

模型平均

模型平均也是有点延续上面的BootStrap思想，就是我有很多重抽样出来的模型之后，要怎么平均这些结果来找出最优模型的。

1. Bagging方法。这个就有点直截了当了。利用BootStrap，我可以，然后自然收集了一堆，所以简单一点就平均一下：

2. Stacking方法。这个就稍稍动了一点心思，直接平均看起来好简单粗暴呀，还是加权平均一下比较细致一点。所以：，其中权重。实际操作中，的选取也是一个蛮tricky的事儿。可以利用validation集来优化...

3. Bumpping (优选)方法。，即在所有的中，选择最好的那个，使得一定标准下的损失最小。

话说，Machine learning或者统计学习，无非就是四件事儿：数据(D)、函数族()、准则()、算法(A)。说来说去，每一样改进都是在这四个的某一方面或者某几方面进行提升的。

Tags bootstrap, Efron, OLS, validation, 密度函数, 对数似然函数, 损失函数, 最大似然估计, 模型平均, 正态分布, 正态线性回归模型, 统计学习, 统计学习精要, 置信区间, 重抽样, 高斯

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

Post author By Liyun
Post date December 17, 2012
4 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（十）

一个东西写到10，总会多少有点成就感...只是不知道已经磨掉了多少人的耐心了呢？

此外这节公式密集，大家看着办吧...

-----------笔记开始------------

继续上一讲，先说说EM算法。

MM、EM和GMM

1. MM（混合模型）

(1) 定义：，其中，，构成一个离散分布。同时有，且，。

(2) 隐变量

我们有数据，同时依据条件概率分布，有。记，则，其中。

则有为x的边际分布。

(3) GMM（正态混合模型）

当，，我们有，且，。

(4) 对数似然函数和最大似然估计

对数似然函数写为。则我们要求的就是，其中。

2. EM算法 (expectation maximum，期望最大方法)

(1) 迭代方法：给定起始值，迭代出。那么问题就是，如何在已知的情况下，求？

(2) E1步：求。函数形式已知，故可以求各种条件概率什么的。所以有：

。

E2步：计算，由于函数形式已知，我们可以计算并将移出来，所以换成线性形式。

(3) M步：求，这样就完成了迭代。需要证明的性质是：随着迭代，越来越大，且收敛。

(4) 定理：。

证明：

其中，且，定义为两分布的KL距离。

所以，且。而由M步，，故有。

在GMM的情况下，应用EM算法，则有：

(1) E1步：，可以直接计算。

(2) E2步：。

(3) M步：注意有约束条件，所以使用拉格朗日乘子法：

，故有一阶条件：。从而，其中。

还有一阶条件：，得到。

最后，，有。

对GMM而言，E步和M步在k=2的时候，求解过程可参见书上。

第七章：模型评估与选择

1. 概念：我们有数据集，函数族和损失函数，这样得到最优的，然后求得

（有监督的学习）。之后就是对模型进行评估：的精度如何（使用测试集）？模型的选择就是的选择，使得测试误差比较小。

2. 方法：

(1) 数据充分：分成三块，1/2用来训练(train)，1/4用来检验(validation)，1/4用来测试(test)。其中validation

的概念是，在中，加入J函数来考虑函数族的复杂度，以避免过拟合。而validation就是来调正和选择这里的，再用train和validation重新训练模型。

最后，用test数据集，测试并且评估测试误差。

(2) 数据不充分：一种是cross-validation，分成k（比如5-10）份，极端的就是K=N，ave-win-out；另一种是bootstrap，后续章节详述。

Tags bootstrap, EM算法, GMM, test, train, validation, 对数似然函数, 损失函数, 最大似然估计, 有监督学习, 期望最大方法, 模型评估, 模型选择, 正态混合模型, 混合模型, 统计学习精要

互联网产业观察

新媒体营销中随机分组实验的失败

Post author By Liyun
Post date December 13, 2012

这个话题可以很深，我这里只是随便写写。当然我也不去定义什么是“新媒体”了...基本上下面可以视之为社交网络媒体。此文纯属若干无知的随便念叨，内行请无视。

记得原来在做社会实验的时候，最头疼的就是网络效应——这东西会让你的随机分组失效。如果网络扩散是均匀的也就罢了，这东西还不均匀，搞得随机分组基本上被破坏殆尽。今天和做社会网络营销这块儿同事聊起，发现他们在新媒体营销上也是遇到了类似的问题——传统的A/B test基本失效，因为control组会被极大程度的“污染”。和电视营销的地理隔离还不一样，社交网络是无孔不入的...

但是偏偏，我们还是希望可以利用这样的网络效应的——主动的传播岂不是更好？于是问题就变成了如何去精准衡量网络效应。

从我们以前的做法（可以参见我的硕士论文,in English），基本上是需要动用IV的...哎，然后这个IV还其难找无比。有些幸运的情况，IV是可以找到的，但是也需要一些外在的shock强行的打破现有的网络连接。

如果说要找一种比较简单的做法，那可能就是类似于spatial econometrics他们做的那样，对各个个体在空间中的位置进行加权。比如你要衡量微博营销的ROI，肯定要跟踪到实际覆盖的个体，然后在构造了网络结构的基础上，对个体的位置进行加权。但是讨厌的是，位置或者连接这些东西都是内生的...所以需要去找自然实验，然后去找工具变量...

总而言之，在我读过的为数不多的paper里面，可以很好的衡量网络效应的很少，而那些极少的还是控制了可控的资源的（比如实际的物品发放而不是新闻式传播）。感觉受新媒体的影响和冲击，很多传统的营销方式都在面临着极大的变化，做的好的往往不是分析人员算出来的而更多的是营销人员一步步摸索出来的...

所以，其实我想说的是，可能需要增加一些更好使用的指标来衡量新媒体营销的力量，而不是期待更好的分析方法的改进来支撑营销。后者还需时间来打磨（如果不是case by case的找IV的话）...

Tags 互联网产业观察, 内生性, 地理隔离, 工具变量, 微博营销, 新媒体, 污染, 社交网络, 社会事业, 社会实验, 空间计量经济学, 网络效应, 自然实验, 营销

读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（九）

Post author By Liyun
Post date December 11, 2012
2 Comments on ≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记（九）

眼瞅着这学期也快接近尾声了，也在讲我越来越不熟悉的东西了...

核平滑与局部方法

1. 核平滑器

(1) K-NN（K近邻）

KNN的思想已经说过很多遍了，大致就是找点x的k个近邻，然后取其平均值作为x点y的预测值。不过这里我们就在想了，可不可以加权呀~于是从最简单的，我们给他按距离算个加权平均：,其中代表权重，离x点越近越大，越远越小。这样听起来更make sense一点嘛~近朱者赤，近墨者黑。

(2) 单峰函数

顾名思义，就是长得像一个山峰的函数，比如我们最经典的正态钟型函数，或者翻过来的二次抛物线函数等等。

(3) 权重（按距离）

我们定义权重，再进一步归一化：。

多维的情况下，写成矩阵形式就是，其中A为正定对角阵，然后我们就可以加权了。

2. 局部方法

(1) 一般概念

我们有数据集，然后定义函数族。再定义损失函数, 我们的目标就是最小化。

相应的引入了加权的概念之后，我们就可以定义加权损失函数：，然后对于每个x做优化，寻找使其最小化的。

(2) 具体例子

(i) 局部回归：，则损失函数为，其中代表已经归一化的权重。

在线性的情况下，我们有，有点类似于我们常见的加权最小二乘法。这里的思想也是，在x点附近的点权重会比较大，离x远的权重则比较小，整体感觉就是在x点附近做了一个回归分析。

(ii) 局部似然：和局部回归蛮像的，只是把损失函数换成（对数）似然函数，即从最大化到现在的最大化加权似然函数。

3. 密度估计与分类

(1) 密度与分类: 我们有x和观测结果G的联合分布：，其中为先验的结果分布，在有K类结果的情况下，写成。这样，也可以写开为其中。

反过来，后验概率，所以我们有贝叶斯分类器。

(2) 密度估计

为了使用贝叶斯分类器，我们需要先对密度进行估计。

(i) 直方图：最简单的就是根据直方图来估计密度，这个没什么好说的...

(ii) 核估计方法（Parzen）：Parzen提出的核密度估计为，该估计当且在减小的时候，收敛于。

4. 核作为基函数

密度函数，然后定义函数族，则其中我iyigexianxingde参数，为指定的函数类，亦为函数参数。这样的话我们有三个函数的参数，指定某一个便可以简化函数形式。不过这里的问题是，没有很好的算法来求解优化问题。比如对于正态分布，我们以写出来，然后的求解就比较复杂了。

上面的两个是非参数方法，下面说一些参数方法。

(iii) 混合模型（GMM, Gauss Mixed Model）

，其中参数有，然后可以利用最大似然准则，最大化，具体算法可用EM，下节课详述。

-----稍稍跑题------

GMM，我印象中它怎么是 Generalized Moment Method, 广义矩估计呢？果然是被计量经济学祸害太深了...

Tags EM算法, GMM, KNN, K近邻, 加权似然函数, 加权平均, 加权最小二乘法, 单峰函数, 基函数, 密度估计, 局部似然, 局部回归, 核估计方法, 核平滑, 混合模型, 统计学习精要, 范数, 贝叶斯分类器

事儿关经济

读书越多，被“剩女”的可能性越大？

今天例行的刷Marginal Revolution，果然发现一篇比较好玩的paper：

Housewife, “Gold Miss,” and Equal: The Evolution of Educated Women’s Role in Asia and the U.S.

简而言之呢，就是作者在好奇，为什么亚洲国家高学历的黄金剩女越来越多？嘻嘻，这也是作者Tyler Cowen 的Job Market Paper。虽然数据不涉及中国，但是眼瞅着韩国和日本现在的景象大概就是中国几十年后的必经之路，所以看看也是挺赏心悦目尤其是有借鉴意义的。

图片与正文几乎无关...

我就勤劳的翻译一下摘要吧：

自上世纪70年代中期以来，美国拥有大学学历的女士结婚或曾经结婚的比例、较之于教育程度稍逊的女士，在逐渐升高。然而有趣的是，与此同时亚洲的发达国家该比例却在降低——也就是说出现来越来越多的“黄金剩女”。本文认为，亚洲近几十年的快速发展和两代人之间的择偶观念传递共同造就了该现象。
经济发展带来了更多拥有大学学历的女性，从而增加了高学历女性供给；然而与此同时，男性对其妻子家务劳动的需求减少的却比较缓慢，尤其是受到他们母亲在家中角色的影响。（换成人话就是，现代女性在进步，而男性的择偶观依旧停留在找保姆阶段，尤其是在婆婆的观念中...）。本文中，我发现一个正向的工资刺激、较之于缓慢的工资增长，会造成婚姻市场中受教育女性和男性更大的不匹配（换成人话就是，女性工资涨得快结果择偶越来越难）。我使用了如下三个数据集来检验这样的结论：the Japanese General Social Survey, the American Time Use Survey, and the U.S. Census and American Community Survey.日本的数据显示，母亲的教育和工作程度会影响到他儿子的择偶观；在美国，亚洲女性家务劳动的时间和其丈夫母国的女性劳动参与率呈负相关；最后，日韩裔的大学毕业女生在美国婚姻市场有着更多的选择——她们更可能嫁给美国人，而与此同时日韩男生则没有此优势，并且这样的性别间差异在出生于外国的人群中更为明显（较之于出生于美国）

Abstract: The fraction of U.S. college graduate women who ever marry has increased relative to less educated women since the mid-1970s. In contrast, college graduate women in developed Asian countries have had decreased rates of marriage, so much so that the term “Gold Misses” has been coined to describe them. This paper argues that the interaction of rapid economic growth in Asia combined with the intergenerational transmission of gender attitudes causes the “Gold Miss” phenomenon. Economic growth has increased the supply of college graduate women, but men’s preference for their wives’ household services has diminished less rapidly and is slowed by women’s role in their mothers’ generation. Using a dynamic model, I show that a large positive wage shock produces a greater mismatch between educated women and men in the marriage market than would gradual wage growth. I test the implications of the model using three data sets: the Japanese General Social Survey, the American Time Use Survey, and the U.S. Census and American Community Survey. Using the Japanese data, I find a positive relationship between a mother’s education (and employment) and her son’s gender attitudes. In the U.S., time spent on household chores among Asian women is inversely related to the female labor force participation rate in husband’s country of origin. Lastly, college graduate Korean and Japanese women in the U.S. have greater options in the marriage market. They are more likely to marry Americans than Korean and Japanese men do, and this gender gap is larger among the foreign born than the U.S. born.

总而言之这个逻辑就是：

随着经济的快速增长，高学历女性越来越多，而与此同时高学历男性的择偶观依旧停留在他们上一辈的观念（要求老婆在家更多做家务），就算移民到美国了依旧如此，所以造成了高端女性“被剩女”；
此外如果亚裔女性到了美国，她们更容易嫁“美国佬”，而亚裔男性则很少娶西方女性。
不过那些出生长大在美国的就没有这么明显的现象...

还是蛮好玩的是不是？我看完了之后觉得优秀的女孩子们唯一的出路就是——好好读书，跑到美国，嫁美国人...不要对本国的男士抱太高期望...汗。或者，谁来向男同胞们呼吁一下——你们是娶老婆，不是娶保姆！哈哈...

另外扫了一眼下面的评论，给出了一些蛮好玩的统计数字:

“The marriage competition is fierce, and statistically, women hold the cards. Given the nation’s gender imbalance, an outgrowth of a cultural preference for boys and China’s stringent family-planning policies, as many as 24 million men could be perpetual bachelors by 2020, according to the report.”

预计到2020年中国大约有2400万单身汉...（重男轻女+一胎政策的恶果）

Tags Marginal Revolution, 一胎政策, 剩女, 劳动力市场, 劳动参与率, 劳动经济学, 受教育, 婚姻市场, 择偶观, 经济发展, 重男轻女, 高学历