Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(八)

平滑splines

有数据集,然后定义目标函数,记为(1)

式。然后我们有如下结论:使(1)最小化的解一定是分段三次多项式。

证明如下。

为函数族上的分段三次多项式(splines),且在首尾两段上是一次多项式,那么他一定有的自由度。

,则当时,有

(2) 我们设也是(1)式的解,则下面证明一定能找到使得目标函数比小,则,

.

(3)记,则

(4) 下面我们证明,(两者内积为0),即

所以得到

(5)有了上述结论后,我们有,然后有,所以对于所有的g,我们都有其二阶导数的范数小于f的二阶导数的范数,故在(1)式中代入g总比代入f大(或者相等)。这样我们就把一个无限维的最优化问题变为了有限维。

子波分析

1. 函数的平移与缩放

平移:

缩放:

组合起来就是。由此,对于每个,我们可以定义一个函数族,写成矩阵形式就是

2. Hoar函数

(1)定义:

(2)Hoar函数的平滑与缩放。定义Hoar函数族为,

。这样我们每个为一组(胖瘦一样)。

定理1(正交):平方可积函数的一个正交基,即对于任意的,有

定理2(增长):随着d的增加,张成的闭子空间逐渐增大,且。这样,d比较小的函数一定能用d比较大的函数(正交基)来表示,比如。直观的理解就是,d越大,分辨率越高。

定理3(完备):

(3)定义,使,或者

(4)定义,然后

定理4:函数族,,则亦为完备基,且,如果。也就是说,之间的空间随着d的增加,彼此正交,且所有的叠起来之后亦为完备空间。

如此,我们称为子波(mother)而为father函数。注意,这里Hoar函数非连续。

在更一般的场合,我们寻找为father函数,然后定义,满足(正交),且(增长),(完备)。

再寻找mother函数满足(同层次内正交)、(相邻层次正交补)和完备。

这样的到底存不存在呢?实证结论是存在,而且很多,不过坏消息是他们的形式都不算简单。

spline和子波分析

spline和子波分析都提供了一组线性基底,其线性组合可以定义函数类。由此,我们可以定义广义线性模型的函数族,为统计学习模型的函数族做约束。

Categories
Wordpress 我的生活状态

WordPress懒人模式开启——自动翻页

最近发现那种自动翻页的懒人模式挺好的,减少一次点击呢...所以打算给落园动动手术。

先搜了一下,找到了一篇jQuery Ajax 分页 WordPress 版,但是发现在我已然千疮百孔的落园上,显然不怎么适用。发现几年没折腾,WP已经强大到很多功能我都不认识了...比如加载个jQuery库居然可以这么简单了...

function my_init() {
if (!is_admin()) {
wp_enqueue_script('jquery');
}
}
add_action('init', 'my_init');

只是鼓捣了半天毫无反应,开始搜其他的东西(我果然是太久没有写过JavaScript和Ajax了,完全不记得这东西语法是什么了,读起来jQuery的源代码表示一片的茫然,还是另寻捷径吧)...果然有现成的WP插件——Infinite-Scroll。不知道为什么WP官网的版本比较旧,那么就用直接github上面找新的东西吧:https://github.com/paulirish/infinite-scroll/tree/master/wordpress-plugin

安装完了之后要仔细的配置一下:

https://github.com/benbalter/Infinite-Scroll/raw/develop/screenshot-1.pnghttps://github.com/benbalter/Infinite-Scroll/raw/develop/screenshot-1.png

然后就可以了...不过鉴于我在这里浪费了许多时间,还是简单的翻译一下这些配置选项吧。

1. 你放置所有文章内容的div,经典的twenty ** 系列都直接是#content,去找WP主题里面的循环开始之前的div就好了~
2. 导航链接所在的div,比如我这里保留了pagenavi的翻页,是因为另外加了一个层,只有一个链接指向后一页。
3. 导航链接所在的a标签——注意这个first是指第一个a标签,我傻乎乎的以为是a标签的名字,汗...没仔细看jQuery CSS 选择器指南哇..
4. 每篇文章的div,就是会自动加载进来的新的层内容,直接去找WP主题里面的循环开始之后的div就好了~

然后就可以正常的使用啦。话说,我这里顺便把首页文章篇数调到了2篇,可以加快一下加载速度嗯。

Categories
事儿关经济

我(对于统计方法)的一些偏见

Yihui写篇文章居然链到了我那篇吐槽文,瞬间亚历山大...我就是随便说说而已,一定要文责自负么?

其实我经常会有些自我的偏见在那里,而且有时候明明知道这些偏见的存在不好,还是很难说服自己改变它们。

比如,最深的偏见就是我对于计量经济学,我实在无法从根本上接受计量经济学属于经济学的这个事实...我对于它从统计观点出发搞的“因果推断”始终加上一个引号。

再比如,计量经济学内,我偏见最深的就是时间序列分析,我实在无法从根本上接受时间序列分析居然可以做因果推断,这东西更多的是预测的意味嘛,和机器学习的观点很像...

再再比如,机器学习各种模型中,我最不能接受的就是那些完全没有假设检验的...这东西至少也得能算个方差什么的才让人觉得靠谱些吧?

再再再比如,没有假设简单的那些机器学习模型中,我最最最最无法认同的就是最粗暴的把各种模型结果混合起来,用类似bootstrap的方法求得置信区间之类...这简直是就毫无办法之下的粗暴猜测嘛。

然后最后一个问题,施老师说,这个某种程度上反映了“群体智慧”。呃,好吧,就算每个模型都提取了一定的信息量,然后这么混合起来就是万灵药了?怎么听怎么像中药一锅煮的感觉,而不是西药那么配方分明...

其实我还讨厌的是“数据科学家”这个说法...努力的把science的帽子往自己脑袋上套,是大家都要遵循“科学发展观”的缘故么?就像我原来特别讨厌有人争论“经济学是硬科学还是软科学”一样,一定要沾上科学的边么?是为了好申请经费么?

如果科学,定义为消除我们对于世界的不确定性,那么无论是经济学还是统计学,不用争议多少,自然都是科学。如果科学,定义为探寻事物发展的因果规律,那么怕不是建立在演绎法逻辑之上的方法,都算不上科学了。我想说的只是,定义可能并不重要,如果定义是狭隘的,那么必然排除了一些有用的方法;如果定义是广阔的,那么必然包容了一些没用的方法。这东西又不是非黑即白的...

我只能说,科学在我这里的定义相对狭隘,宁缺勿滥,所以我的偏见有这么多...偏见越多,观点越偏颇,经常有过两年自己都不知道自己当年为什么那么幼稚和狭隘的感觉。所以大家一来请见谅落园文章的局限性,二来欢迎帮我突破局限性,用鲜明的观点和生动的例子来说服我——不仅仅是一些口头上关于定义之类的争论。

------------

照例跑题:确实如yihui所说,我的blog文章太多了,找起来难免不方便。尤其是对于不是常年订阅的读者来说。所以我决定对自己的blog主题动动手术了,瀑布流什么的最近蛮流行的,挺好的打算学习一下。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(七)

例行的废话。刚刚看了一下Google Analytics里面的统计,那篇七天搞定SAS果然不负众望的摘得了(单篇博文)点击量桂冠。意外的是居然有那么多人会点击到“关于我”这个页面...呃,对我这么好奇么?

2 /learning-sas-in-7-days-1/
3 /coursera上的r语言课程/
4 /r会议小记/
5 /使用lyxxetex编译中文tex和输出中文pdf/
6 /中文文本聚类小尝试(text-clustering-in-r)/
7 /me/
8 /?统计学习精要the-elements-of-statistical-learning?课堂笔记(一)/
9 /快速将word的doc文件转为latex!/
10 /?统计学习精要the-elements-of-statistical-learning?课堂笔记(三)/

不过他的后续就比较悲催了,点击量寥寥。然后还不出意外的,weibo超越google成为了流量来源第一:

1 weibo.com / referral
2 (direct) / (none)
3 baidu / organic
4 google / organic
5 rss / rss
6 r-ke.info / referral
7 cloudlychen.net / referral
8 h2w.iask.cn / referral
9 so.360.cn / referral
10 yihui.name / referral

果然最近墙发威比较厉害...google啊google...

另外,出乎意料的是一些旧文反而受欢迎,哎~还好看到《统计学习精要(The Elements of Statistical Learning)》课堂笔记系列一直有点击,也算是这一系列写的比较值得吧。今天继续。

----------------笔记开始-----------------

貌似是第五章,不过老师一直在讲一些非常基础的数学预备工具:基展开与正则化,其中用到泛函概念若干。我不知道该开心呢,还是不开心呢,还是开心呢,毕竟泛函学过,毕竟泛函忘得也差不多了...

1. 预备知识

在P维欧氏空间内,我们定义两个运算:加法(x+y)和数乘(),然后定义一下函数空间:上的平方可积函数,同样的定义加法和数乘:f+g和).

接下来还有若干概念...呜呼:

  • 线性组合:
  • 线性独立
  • 线性子空间:我们可以定义线性子空间, , 有.
  • 维数

这些概念连上运算加法和数乘一起,构成线性空间。进一步的,我们可以定义内积空间:

  • 内积:(离散)或连续
  • 之后的正交就很容易定义了:或者
  • 还可以定义正交基...
  • 还有正交子空间:
  • 正交补: , 使得,比如最简单的二维空间里面,X轴和Y轴...
  • 范数:

有了范数以后,我们就可以进一步的定义极限:如果 , 则 ;或者连续的,

然后就是闭子空间的概念了:如果 ,且 ,则必有 ,即极限点都在空间内。注,在有限维空间内,只有空集和全集既开又闭。

还有完备基...总之大致的就是一步步的:定义内积 ->; 内积空间 ->; 存在可数的完备正交基 ->; Hilbert空间(有限维完备空间)

2.B-splines(样条)

2.1 定义

B-splines更多的是一种用离散逼近连续的感觉...好吧我承认我是完全的没有接触过这个东西,扫盲中...

首先,我们有一个闭区间[a,b],然后有个点聚集在其中,且依次增大。然后我们就可以定义一个函数集合: ,然后对于d=0 ,定义分段函数 ,然后就可以递归的定义

举个例子呢,就有. 这样下去,有:

  • d=0,0阶的时候,只有一段函数上有非零值;
  • d=1,1阶的时候,有两段函数有非零值;
  • d=2,2阶的时候,有三段函数有非零值...

2.2 性质

  • 性质一: 是分段的d次多项式;
  • 性质二:局部性:, 当 或者
  • 性质三:光滑:是d-1阶光滑的多项式,即d-1阶导数都等于0;
  • 性质四:如果某一函数满足性质三,则必然和只相差一个常数因子。

2.3 d阶B-splines

我们可以用B-splines来逼近任意一个函数,则有,从这个角度看B-splines有点基底的味道。从分段多项式,到光滑的分段多项式,再到d-1阶光滑的d次多项式,我们就有了 d阶B-splines...

------笔记结束---------

讲了这么多,我一直在猜这些到底是用来干什么的呢...不知道接下来的哪些内容用到了完备内积空间、基展开和线性逼近呢?

Categories
事儿关经济

安逸的富二代

听着听着音乐,突然间想起一个人,索性捉起笔来,描绘一番。

想说的这个人是我曾经的一个客户,那还是那个上海温暖的象夏天的秋天,也是那个出差跑到陕北冰冻的象冬天的秋天。那是第一次去到陕西榆林的客户那里,第一次自然什么都不顺利,客户基本不怎么搭理我们,一副给你们个机会来办公室喝杯热茶就不错了的姿态。那个时候,可谓见识透了做市场的人的嘴脸变化之快,小心翼翼的陪着笑脸,生怕自己说错了什么被人拿住当作了把柄。事后,还在那里费尽心思的揣摩客户的心思,不知道为什么上午的太阳说变就变成了下午的阴云。天晓得那个时候对我的心理是一种多么大的折磨和考验,职场的水深自那时开始体会...我们那时的客户都是国企,里面明争暗斗派系不断,搞不好就是人为刀俎我为鱼肉,搞不好人家来笑嘻嘻的啃了你都不知道...

只是在那众多的客户中,有那么一个不同寻常的客户。他第一次见我们,特别不友好,是那种放在表面上的不友好。我心里一悸,不知道会不会下一秒就被毫不客气的扫地出门了,心里顿时生出了若干委屈,而奇怪的是那是我居然控制住了内心的万千波澜,还在那里堆满了笑容小心翼翼的询问着一些不得不问的问题。

估且称呼这个客户为度总吧。度总年纪不大,又是技术部门的领导,自然充满了技术范儿。度总是榆林当地人,西北汉子的性格爽朗的很,在这么一个不知道隔壁是不是就藏着暗箭的地儿,也是直来直去的,喜欢就是喜欢,不喜欢就是不喜欢,不加掩饰。也是这一点,让我后来越来越好生感激—其实很多时候这些部门的领导也是只能奉上面领导的指示行事的,有的时候跟你山路十八弯也只是一些不能做的事儿,绕来绕去的,害得我们只能不断的猜度,好生费力。度总则不会跟你浪费时间,说什么就是什么,爽快的很。

隔了一段时间,再去榆林,又见度总。这次上面大概是点头了,所以一路下来我们就只是操作一些具体事务。这个时候度总难得的,坐下来跟我们讨论技术的东西(我一直觉得做咨询尤其是纯乙方,两分技术,八分耐心与人交流),这些相比于人情那些我自然更熟络一些,所以聊起来倒也敞快。度总也是个数码玩具迷,当时正巧背着一个kindle还有一个ipad去了,就跟他相互鼓捣了好久这些玩意儿。还给我拷贝了一些音乐,这也是为什么突然听到这些音乐想起他来的缘故。

后来听说,度总开了一辆非常好的车来上班,大概仅次于他们老总。这显然不会是单位配的。联想到榆林那地儿暴发户甚多(煤炭发家),我们就揣测度总家里怕也是殷实的很。大致的人生轨迹无外乎是,上学,然后毕业家里找点关系塞进国企,舒舒服服的做个闲差头头,舒舒服服的过着小日子,买个几千块的耳机发发烧或者空运几罐普洱解解渴之类。一个三十出头的技术领导,低调而文艺的很~

这种富二代的人生,让人几乎无可指责和羡慕什么。极度的安逸,与世无争。可以喜欢什么玩弄什么,不喜欢就不理会,不用象我们乙方这样天塌下来也得陪着笑(这也是我为什么一度要离开乙方做甲方的推动力)。关键是,你不会觉得他无知,他傲气,你可以感受到他有自己喜欢的东西,只是不用像我们这样需要努力的养活自己而已。但不见得他不能养活自己,搞不好真正做起东西来比我们都要强得多。只是不需要吧。有种大隐隐于市的脱俗感。

不知道,若干年后有没有机会再去品品他沏的那壶温热的普洱,在那个寒冷的秋天唯一让我感到有所温存的普洱。在那个弱肉强食明枪暗箭的环境中,唯一让我敢放下心来细细品品茶的味道的普洱。