Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(八)

平滑splines

有数据集,然后定义目标函数,记为(1)

式。然后我们有如下结论:使(1)最小化的解一定是分段三次多项式。

证明如下。

为函数族上的分段三次多项式(splines),且在首尾两段上是一次多项式,那么他一定有的自由度。

,则当时,有

(2) 我们设也是(1)式的解,则下面证明一定能找到使得目标函数比小,则,

.

(3)记,则

(4) 下面我们证明,(两者内积为0),即

所以得到

(5)有了上述结论后,我们有,然后有,所以对于所有的g,我们都有其二阶导数的范数小于f的二阶导数的范数,故在(1)式中代入g总比代入f大(或者相等)。这样我们就把一个无限维的最优化问题变为了有限维。

子波分析

1. 函数的平移与缩放

平移:

缩放:

组合起来就是。由此,对于每个,我们可以定义一个函数族,写成矩阵形式就是

2. Hoar函数

(1)定义:

(2)Hoar函数的平滑与缩放。定义Hoar函数族为,

。这样我们每个为一组(胖瘦一样)。

定理1(正交):平方可积函数的一个正交基,即对于任意的,有

定理2(增长):随着d的增加,张成的闭子空间逐渐增大,且。这样,d比较小的函数一定能用d比较大的函数(正交基)来表示,比如。直观的理解就是,d越大,分辨率越高。

定理3(完备):

(3)定义,使,或者

(4)定义,然后

定理4:函数族,,则亦为完备基,且,如果。也就是说,之间的空间随着d的增加,彼此正交,且所有的叠起来之后亦为完备空间。

如此,我们称为子波(mother)而为father函数。注意,这里Hoar函数非连续。

在更一般的场合,我们寻找为father函数,然后定义,满足(正交),且(增长),(完备)。

再寻找mother函数满足(同层次内正交)、(相邻层次正交补)和完备。

这样的到底存不存在呢?实证结论是存在,而且很多,不过坏消息是他们的形式都不算简单。

spline和子波分析

spline和子波分析都提供了一组线性基底,其线性组合可以定义函数类。由此,我们可以定义广义线性模型的函数族,为统计学习模型的函数族做约束。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(七)

例行的废话。刚刚看了一下Google Analytics里面的统计,那篇七天搞定SAS果然不负众望的摘得了(单篇博文)点击量桂冠。意外的是居然有那么多人会点击到“关于我”这个页面...呃,对我这么好奇么?

2 /learning-sas-in-7-days-1/
3 /coursera上的r语言课程/
4 /r会议小记/
5 /使用lyxxetex编译中文tex和输出中文pdf/
6 /中文文本聚类小尝试(text-clustering-in-r)/
7 /me/
8 /?统计学习精要the-elements-of-statistical-learning?课堂笔记(一)/
9 /快速将word的doc文件转为latex!/
10 /?统计学习精要the-elements-of-statistical-learning?课堂笔记(三)/

不过他的后续就比较悲催了,点击量寥寥。然后还不出意外的,weibo超越google成为了流量来源第一:

1 weibo.com / referral
2 (direct) / (none)
3 baidu / organic
4 google / organic
5 rss / rss
6 r-ke.info / referral
7 cloudlychen.net / referral
8 h2w.iask.cn / referral
9 so.360.cn / referral
10 yihui.name / referral

果然最近墙发威比较厉害...google啊google...

另外,出乎意料的是一些旧文反而受欢迎,哎~还好看到《统计学习精要(The Elements of Statistical Learning)》课堂笔记系列一直有点击,也算是这一系列写的比较值得吧。今天继续。

----------------笔记开始-----------------

貌似是第五章,不过老师一直在讲一些非常基础的数学预备工具:基展开与正则化,其中用到泛函概念若干。我不知道该开心呢,还是不开心呢,还是开心呢,毕竟泛函学过,毕竟泛函忘得也差不多了...

1. 预备知识

在P维欧氏空间内,我们定义两个运算:加法(x+y)和数乘(),然后定义一下函数空间:上的平方可积函数,同样的定义加法和数乘:f+g和).

接下来还有若干概念...呜呼:

  • 线性组合:
  • 线性独立
  • 线性子空间:我们可以定义线性子空间, , 有.
  • 维数

这些概念连上运算加法和数乘一起,构成线性空间。进一步的,我们可以定义内积空间:

  • 内积:(离散)或连续
  • 之后的正交就很容易定义了:或者
  • 还可以定义正交基...
  • 还有正交子空间:
  • 正交补: , 使得,比如最简单的二维空间里面,X轴和Y轴...
  • 范数:

有了范数以后,我们就可以进一步的定义极限:如果 , 则 ;或者连续的,

然后就是闭子空间的概念了:如果 ,且 ,则必有 ,即极限点都在空间内。注,在有限维空间内,只有空集和全集既开又闭。

还有完备基...总之大致的就是一步步的:定义内积 ->; 内积空间 ->; 存在可数的完备正交基 ->; Hilbert空间(有限维完备空间)

2.B-splines(样条)

2.1 定义

B-splines更多的是一种用离散逼近连续的感觉...好吧我承认我是完全的没有接触过这个东西,扫盲中...

首先,我们有一个闭区间[a,b],然后有个点聚集在其中,且依次增大。然后我们就可以定义一个函数集合: ,然后对于d=0 ,定义分段函数 ,然后就可以递归的定义

举个例子呢,就有. 这样下去,有:

  • d=0,0阶的时候,只有一段函数上有非零值;
  • d=1,1阶的时候,有两段函数有非零值;
  • d=2,2阶的时候,有三段函数有非零值...

2.2 性质

  • 性质一: 是分段的d次多项式;
  • 性质二:局部性:, 当 或者
  • 性质三:光滑:是d-1阶光滑的多项式,即d-1阶导数都等于0;
  • 性质四:如果某一函数满足性质三,则必然和只相差一个常数因子。

2.3 d阶B-splines

我们可以用B-splines来逼近任意一个函数,则有,从这个角度看B-splines有点基底的味道。从分段多项式,到光滑的分段多项式,再到d-1阶光滑的d次多项式,我们就有了 d阶B-splines...

------笔记结束---------

讲了这么多,我一直在猜这些到底是用来干什么的呢...不知道接下来的哪些内容用到了完备内积空间、基展开和线性逼近呢?

Categories
事儿关经济

空虚[2nd week, Jan]

考完最后一门,突然间觉得生活失去了目标,或许是接连忙碌着,都没有喘息之机,反而习惯了。突然间没有事情做了,生活归于平淡,还有些来不及适应。

泛函华丽丽的挂掉了,人家说“没有挂科的大学生活是不完整的”,于是我就在临近毕业之前华丽丽的挂掉了一科,不知道明年还用不用参加大补考……唉。果然不是我的,永远不是我的,泛函这种东西不是我这样三天打鱼两天晒网可以搞定的。

或许可以先打两天游戏放松一下,顺便把那本厚厚的《凯恩斯传》读完了……实在是太厚了,整整100万字,天知道那个作者怎么写的,天知道那个翻译的人怎么缩译的(据说原著是三卷-_-)……我读着都觉得累。然后再忙些什么我暂时也没想好,虽然很多事儿都拖着没有做,但是实在是太懒了,不想动手做,就干脆一直拖下去了。

还有,明后天是考研的大日子,希望小贺顺顺利利的如愿以偿的进入自己理想的学校读研,毕竟上财还是比较国际化的,不失为一个学习金融的好地方。可惜我对金融这东西实在是不开窍……话说,那天忽悠她和小杨让她们毕业论文导师请吃饭,嘿嘿。我的招还是蛮高的嘛~

今儿刚刚诉说了一下“空虚”下午就被抓到资料室充当苦力去了,那么多老师的科研成果一个个录入到XX系统中,当时就想干脆写个JS脚本给他一条条从Excel读进去算了……后来还是没敢在老师面前这么放肆,只好不停的CTRL+C/V粘进去了。多亏了傲游的智能填表,省却了我好多时间(不过我好久都没用傲游了……)。看了看那些老师们的论文,挺有意思的,啥题目都有,啥杂志都有,当然,这个水平的参差不齐可见一斑。还有那个XX基金立项,更是有意思的紧。最让人诧异的是《经济研究》的重要地位,发一篇等于其他核心期刊发5篇,哇!连英文杂志都难以望其项背。说起来想起Yihui兄前几日邮件中的一句话,擅自摘引过来,默认这厮不会有什么反应的:

某一年《统计研究》的一个大编辑去人大统计学院讲座,挥舞着膀子讲到“我们要超过《经济研究》”我就心想,丫丫个呸的,你一统计研究,盯着人家经济研究干嘛,天大地大,统计那么多路,为啥跟人家经济研究过不去。

话说,下午一老师还过来跟我打岔,说让我帮忙阅卷去……一个年级300多份卷子啊,额滴神哪!要是真的阅起来,怎么也得一整天的功夫哩。呃……可怜某些学弟学妹们的命运就要毁在我的手中了……真是,这学期又是上课,又是讲座,又是卷子的,加之碰到N多人上来就问“你是(谁的/哪个方向的)博士?”之类的话,顿时觉得自己好老啊。为了让自己稍稍年轻点,还是沉寂一点的比较好。与其相濡以沫,不如相忘于江湖。

Categories
经济、IT观察与思考

Equilibrium makes economics a science? [3rd week, Nov]

题目用英文只是因为不知道怎么确切的用中文表达了。最近一直泡在数学里,很多思维大大的被改造了。不过很庆幸自己先学了经济学,否则就真的可能变成数学院某些“只有智商不见情商”的愣头学生们了。或者,万幸?

想起来这个题目,是突然间记起一直以来人们在争执的“经济学到底是不是硬科学”一问题。我不是如彭实戈之类的大家,无资格做什么评判,积累也远远不足。只是最近一直在努力的领悟泛函到底想说什么,一点浅薄的见识就是泛函中有一很重要的概念就是“列紧性”,也就是任意数列都存在收敛子列。这个东西可不得了,要知道类似于Banach之类的完备、赋范线性空间都是列紧的。那就很有研究的味道了~

那么,收敛意味着什么呢?当然,一方面是一个“有界”的概念,但是我个人觉得可能更重要的是一种“确定性”的思想。在压缩映像定理里面,我们证明了不动点的存在然后一堆方程就可以直接“迎刃而解”了。不动点这个东西推广到概率里面,那更是有意思的紧。不动,意味着方差为0;收敛,意味着均衡的存在。那么,一下子新古典经济学里面很多东西的存在就可以解释了。

最最简单的就是角谷不动点->纳什均衡->博弈论,一下子提供了一种看待问题的新的角度,是数学工具的更新让原来一些只能存在于思想意识中的概念得以规范的数理化,然后证明出来一系列漂亮的结论。

我窃以为,经济学中间最重要的概念就是“均衡”。经济学之所以超越其他社会科学而一枝独秀,最早就是从“一般均衡”理论的提出让其他学科难以望其项背。均衡的概念,贯穿与微观的供求分析中,贯穿于多人博弈的纳什均衡,贯穿于宏观经济增长模型的稳定,贯穿于动态市场结构的收敛均衡。所以说,均衡实在是在经济学中无处不在。而且这是一个和最优化并不矛盾的概念,有的时候两者甚至还是一致的,这一切都源于数学式子和经济学概念之间的完美映射。

记得当时去听彭老师讲座,他一开始就提出了各个时代各个地域哲学对于“不确定”和“确定”的定义。从这个角度来说,科学就是把原来不确定的事情先推导出来一个对应结果的概率,而后再进一步研究影响概率的条件以期最终能得到一种“确定性”。

从wiki对于science(科学)一词的定义,或许多多少少映证了我的理解:

Science (from the Latin scientia, meaning "knowledge") is, in its broadest sense, any systematic knowledge-base or prescriptive practice that is capable of resulting in a prediction or predictable type of outcome.

那么,为什么经济学总是难以堂而皇之的称作“科学”?是因为它的无法验证性?

总所周知,科学最大的意义就在于他的同胞兄弟:技术。科学是推动技术前进的力量,而技术是的的确确影响着我们的生活的。虽然学了那么多经济学,也受了多派对于经济增长观点的影响,但是我始终还是认为主导社会进步的是科学而不是制度。无论如何,科学的积累是需要时间的,也是需要天才的。虽然现代经济学总在关注制度,从微观的机制设计到宏观的经济体制和乃至法律,一切都是在比较着不同的制度,但是我还是窃以为这恰恰是一种经济学目前举步维艰的表现。

如果经济学确实是一门科学,那么它要做的就是从理论推导出应用,而后真正的去解决现实中的经济问题。上周在答Taiyun问的时候(参见:[cref %e7%ad%94taiyun%e9%97%ae3%ef%bc%9a%e7%bb%8f%e6%b5%8e%e5%ad%a6%e7%96%91%e9%9b%be%e9%87%8d%e9%87%8d%ef%bc%9f])曾经涉及经济学家与经济危机的问题。我的解释是经济学还是一门年轻的科学,我们远远还没有达到能去预测的地步,甚至连经济运行中的一些问题自己都看不清。所以在这样的意义上来说,虽然经济学在追求着均衡和确定性,但是还远远不够。

再回到数学。学了一些数学后,目前觉得数学最大的问题就是从“有限”到“无穷”的跨越。这个问题或许更应该说是一个哲学问题,但是它确实是在任何的数学领域中都有着深深的影响。为了绕过它,有了一系列的概念和假设,也有了一系列的约束。此类问题非吾等凡夫俗子可解,暂且搁置。只是在此问题上想通一点点,估计就成了叱咤风云的人物了。

然而经济学,却在此问题上差得远。其实某种程度上,或许有限与无穷、确定与不确定、收敛与发散等等都是一个哲学问题,只是不同层次上的表象而已。然而还未登上山峰,因此无法“一览众山小”,只能在山脚下妄自揣测。但愿不是井底之蛙,空谈无益。

Categories
事儿关经济

再谈数学

虽然今天是有很重的任务要写完一个summary明天好去跟导师汇报的,但是看到一位朋友在落园的留言和推荐的网址(现在感觉落园能带给我的真的是越来越多了,深深体会到姜太公当年的幸福),随即看看了他所推荐的文章,受益良多,而且正是我所需要的。

到现在,最最欣慰的就是暑假选择了留在学校好好的补习数学,而不是白白浪费时间去闲逛。同样的,越来越感谢让我逐渐意识到数学在经济学中的工具枢纽地位的诸位老师们。工欲善其事,必先利其器。所以,大四一年,我有非常大的必要去好好的补习数学这个工具。

看了看那些很长的文章,总结开来,自己需要弥补的:

  • 数学分析:那点微积分的只是需要很大程度上的弥补
  • 实分析:国内的实变+泛函,坚定了我下学期不自量力的去听数学院的泛函分析的信念
  • 测度论:实变函数的一大部分,打算大四下去听,实在不行就申请延期毕业吧,总之要学完这门课。
  • 傅立叶分析:这个……呃……
  • 复变函数:下学期要去学,呵呵。
  • 常微分方程:下学期去学……
  • 点集拓扑:大四下……
  • 高等数学:还是好好的把北大那本经典教材翻烂吧……
  • 近世代数:呃,这个东西,稍稍考虑一下还可以……
  • 基于测度论的概率论:唉,还是自学吧,买了本北大的书却看不懂……深感自己的无知。
  • 随机过程:呃……先看看数学院开不开吧……
  • 基于测度论的数理统计:天……我那数理统计还是考试前强迫自己看出来的,这东西……唉……
  • 渐进统计:这是什么东东?

看完此文的唯一感觉就是:我真的学过数学么?狂汗之,惭愧!真是浪费了太多时间在太多无谓的事情上面,接下来的一年我还有一些时间去弥补这些不足,这是唯一可以偷偷欣慰的事情。只但愿,亡羊补牢,为时未晚。

关于此文的PDF完全版,请移步:http://sites.google.com/site/loyhome/math (或context重排版:http://sites.google.com/site/views63/context-test)下载。

话说,刚才上Cambridge的网站的时候赫然发现,1209-2009,800年啊!我的神啊,真是“百百年老校”咯!先祝他生日快乐!嘿嘿。刚刚又给他送了1000多大洋,IELTS~一路顺风!

再论,最近总有人来讨教Latex……如果有可能,下学期好好抽空讲讲Latex算了……反正也不是第一次给那群孩子们上课了……