Category: 经济、IT观察与思考

读书有感

统计学习精要(The Elements of Statistical Learning)课堂笔记（二十五）：降维和PCA

Post author By Liyun
Post date June 19, 2013
14 Comments on 统计学习精要(The Elements of Statistical Learning)课堂笔记（二十五）：降维和PCA

降维

降维完全属于unsupervised learning了，即给定数据集，我们希望降到q维的。从这个角度来讲，降维和聚类还是有相通之处的，都是对于特征的提取。只是一个从行的角度出发，一个对列操作的感觉。

PCA（主成分分析，Principle Component Analysis）

个人觉得这也是起名字起的比较好的模型之一...乍一听起来很有用的感觉 -_-||

1. 求,使得，且最大。

直觉上来讲，就是想寻找一个主方向。

这样，求解问题为：

。所以我们只需要求一阶导数即可。

设A为对称矩阵，则存在正交阵使得，其中为A的特征值矩阵，故(列向量为特征向量）。不失一般性，我们可以排序使得（从大到小排序）。

最大特征值:

同时为x的相关矩阵，，从而

2. 找到(q维的子空间）

将投影到该q维空间，这样，且最小。

A矩阵的范数：
tr表示矩阵的迹（对角线元素和）。

则上述问题等价于，求使得最小。

最小。

即使得最大（注意没有负号）。

称为数据的相似矩阵。

和均为对称阵，且两个阵有相同的特征值。记为A的秩，AA'的特征向量，A'A的特征向量，则，。做奇异值分解，则.

由此，求得的和前述结果等价。

回到PCA。如果降维后需要重构，则，解即可。

3. 对偶PCA。如果即数据非常高的时候，可以转置后再做。

4. KPCA （kernel）PCA也可以先用核函数，即实现非线性的降维。需要注意，降维的过程需要保持可逆。

---------------

PS. PCA不适合解决overfitting的问题。如果需要解决，加regularization项。

Tags KPCA, PCA, 主成分分析, 对偶PCA, 无监督学习, 特征向量, 相似矩阵, 统计学习, 统计学习精要, 范数, 降维

读书有感

统计学习精要(The Elements of Statistical Learning)课堂笔记（二十二）：核函数和核方法

Post author By Liyun
Post date June 19, 2013

补上笔记。这节课讲的就是大名鼎鼎的Kernel Method...

核函数（正定）

定义 , 满足：

1) 对称：

2) 正定： n个观测，正定（或者非负定）。

举例：

常数——
内积—— ，或广义下，其中，从。

性质：

1. 封闭性

1) 正定，，则正定。

2) 正定，正定，则正定，正定。

3) 正定，，则正定。

4) 正定

5) 正定。

2. 归一性

正定，。

再生核Hilbert空间（RKHS)

（走神一下：关于这个命名的吐槽猛击 -> 翻译版、英文原版Normal Deviate）

1. Hilbert空间：完备内积空间，可以视作欧氏空间的推广。。

在这个空间中，我们定义：

加法：x+y
数乘：, 。
内积：对称性;线性，.
零元素：若，则定义为零元素。
完备性：如果且，则。（收敛到该空间内）。

2. 再生核Hilbert空间

给定正定，可以构造Hilbert空间H使得，；且构造一个，使得，即核函数可以写成内积形式。

这样对于，。

核方法

1. 基本思想

将线性模型推广到非线性模型的方法（其中较为简单的一种）

，从到的一个映射。举例：，这样就可以拓展为广义线性模型。

2. SVM

可以转化为：

令，，则

非线性变换之后，

注意此时的维数有变化（）。

---------------------

如果各位更关心SVM后面的直觉，还是去看看Andrew Ng的相关课程吧...这里推导太多，直觉反而丢了一些。

Tags Kernel Method, RKHS, SVM, 内积, 再生核Hilbert空间, 分类器, 完备内积空间, 广义线性模型, 支持向量机, 最优化问题, 有监督学习, 核函数, 统计学习, 统计学习精要, 非线性变换

游来游去经济、IT观察与思考

数据分析职业病

分析是种职业病，融贯在每一分血液里，每一分骨髓里...去参加个Qcon看看人家的创意网站，然后心里各种痒痒，拉着思喆哥、堰平兄饭局讨论实现的原理也就罢了，最近只要一出门就习惯性的开始思考某些稍微“违背常理”或者“略显聪明”的现象...

比如这次去西安，在去的航班上，就开始思考起来了“航空公司的数据挖掘”....
-------------------回忆的分割线-------------
有些事情纯属职业病。这次上海飞西安坐的是南航的航班，一路折腾到飞机上就已经疲惫不已了，直接睡过去。

后面的一切毫无波折，如果不是临下飞机十几分钟的一段对话，我估计会对这段航行毫无记忆。只是突然间空姐的一句问候，"您是***女士么（我的本名）"，让我第一反应是我不是你们的金银卡啊，这也开始问候了？...然后笑意盈盈的递给我一张会员申请表。"您虽然还不是我们的会员，但是您是我们的潜在会员。所以请您加入我们南航明珠俱乐部"...

我第一反应是，"潜在会员"这个是怎么分析出来的？目测我大概有一年的时间没有飞过南航（在过去的半年时间我似乎都完全没有飞过），难道他们有个"沉睡用户苏醒监测"？要不就是，正巧这次我累计乘坐南航的次数达到了他们分析的阈值（比如10次）？要不就是，每次坐南航我都累积东航，让他们终于忍无可忍了...还是说，他们真有一个customer life value model，算出来我对他们的潜在价值了？

蛮有意思的是，我曾经有段时间周周飞南航，他们却从来对我爱理不理，所以我猜测他们的模型里面对于"reactivated"的顾客有个很高的权重。

到最后，南航猜的准吗？准，有可能是我确实在东航还有一些里程可以挥霍。不准，则是我现在飞行大都是私人旅行了，基本不可能象以前做咨询时候出差那般频率了，所以我的潜在价值肯定没有模型上估计出来的高。如果这个模型进一步分析"公务旅行"还是"私人旅行"，怕是效果会更好吧。不知道能不能通过机票代理来区分这两类客源...所以，准，却有点晚了。

当然对于垄断国企来说，这个CRM并不是那么重要，反正利润会一直在那里，国内的常客计划也发展不起来。只是感慨一下，这样的分析要是想做好，绝对离不开自己对于这项服务的亲身体验。只有飞的多了，才知道常客计划的最大引力和最关键时点。而后的分析，才会水到渠成吧？

职业病发作完毕...