Categories
经济、IT观察与思考

2018的一些记忆

年纪越大,越不想写什么年终总结之类的,感觉记住的就记住了,记不住的就任其遗忘就好了,不必刻意的一条条的列出来。2018年的最后一天,五点钟就会落下的太阳。日落前的两个小时,还算闲暇,就趁机写一些我还记得住的一些事情。

潮流:机器学习和深度学习

身处硅谷,就算再不关心机器学习,周围的人也总是会叫嚷着,于是乎被动学习了。我一直属于不怎么刻意去关心热点的人,感觉深度学习这几年热得发烫,却不知道到底烫在哪里。打开科技新闻,要么是无人车,要么是视频换脸,感觉视觉识别已经越来越发达了。打开购物网站,各种智能家居应用层出不穷,语音识别自然是其中最重要的技术支撑。

十二月,多少得到一点闲暇时间,有意识的去扫了一眼这个领域最近的一些论文和twitter上大佬们的辩论。有朋友戏称大多数人的深度学习就是调参,这么想想更像是一种工匠精神的极致发挥。每一项工业用品,譬如飞机,都是一点一点调出来的零件和参数组合。你说所有的一定是最佳么,未必,但非最优解也有可能给出很稳定的表现。这么想想,看看深度学习层出不穷的各种领域和数据集上实践的论文,也是人们智慧和探索的结晶。

只是理论的进展呢?没有理论的长远发展和支撑,应用的突破大概也可以看到天花板。后面有时间打算去看看深度学习的理论,然而不止一个人打击我说,深度学习并没有什么理论。我想,大概还是会有一些的吧,只是还没有坚实到一个成熟的理论体系里面。四五年前,我经常笑谈说,深度学习会不会是下一个微积分?大家先用着,然后实践倒逼理论臻于完美。好几个朋友笑笑,不了了之。不知不觉好几年又过去了,深度学习居然还是那么热,但理论的进展却没有想象中的那么快。理论如果真的没有进展,那么深度学习会不会又一次陷入神经网络曾经的绝境呢?

隔岸观火,好在我有的是耐心。硅谷聚集了一群最聪明的大脑,就算只是工匠般的推敲,一点点开凿出道路,也足以让人钦佩。只是世间万事,最终逃不过客观规律。只是不知道需要多久,这一代人才可以突破迷雾,探得镜中花。

旅行:疲惫和兴奋

每年年末我好像都会总结一下一年中去过的地方,算是一个小小的纪念。去年走过了五大洲,而今年频率更高。下半年因为工作的缘故,几乎是每个月出境一趟,却只是在北美和欧洲之间穿梭,除了回国一次。到了一定程度之后,已经比较难找到下一个说走就走的旅行目的地了。看遍世间繁华,大同小异,殊途同归。

当疲惫到连去欧洲都不用心打包,缺什么现场买什么,我想我对国际旅行的心里疲倦已经到了一个不可挽回的程度了。一个人旅行那种随意和不确定性,已经不能让我如往年那样兴奋了。

工作:方向和勇敢

工作永远都是起起伏伏的。顺的时候,项目进展神速,没什么需要过度担心的。不顺的时候,皱着眉头想了许久,才得以找寻到几个可以修修补补的地方。时间久了,幺蛾子见多了,也就见怪不怪了。

工作上最难的永远不是学习不知道的知识,也不是越做越熟少出纰漏。解决一个问题固然可能需要一些时间,但总归是能找到办法的。而寻找下一个突破点,才是让人彻夜难寐的事情。相比于前进的方向,具体的零零碎碎的问题就显得不那么重要了。很多事情虽说是殊途同归,但也得大致方向一致。

2018,有一些突破,尝试了退一步海阔天空的清爽。曾经有一段时间的迷茫,因为看到周围少数几个人坚定地向着梦想前进的果决,相比而言自己的犹豫不决显得格格不入。后面追问着自己一些本质的问题,比如什么事情可以给我持续的快乐,我又想成为什么样的人,或者不想成为什么样的人。这些问题渐渐的明晰起来,然后只是如何寻找到前进的道路而已。还算有一个稳定的平台支撑着,那么就不妨承担一些风险,试错,徘徊前行。

勇敢着,很多事情回头看,当时的结果已经并不重要。各种经历,最终造就了独特的人生。

其他

生活上,各种莫名其妙的技能在增加。学会一些意料之外的技能,解决一些生活实际问题,其实还蛮好玩的。

体重意料之外的,降到了这么多年的最低点。顺手量了量三围,虽说不用靠三围赚钱养活自己,但看着这些数字指标还是蛮开心的。

文字方面,博客更新寥寥无几。偶尔会在手机上写一些随感,翻了翻英文居然不比中文少。衷肠苦诉,情绪的波动和管理越来越成熟,却少了几分跌宕起伏的兴奋。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十八):神经网络

前馈神经网,BP算法,AE(自编码器,Auto-Encoders)

1. 前馈神经网(Multilayer Feedforward Network)

fig 12.8

前馈神经网大致就是这个样子,一层一层的结构。这样,我们就由第一代的神经元系统繁殖出来了一个神经元群落...看起来很高深的样子。

先说一些参数和记号:

  • L:网络的层次
  • :表示第层中神经元的个数。特别的,为所有输入变量的个数(x的维数),是网络输出的个数。
  • :相邻两层()之间的连接的权重。
  • :第层第个神经元的偏置值。
  • ,,:第层第个神经元的状态值。
  • ,,:第层第个神经元的活性(activation),或称为输出。

基本关系:

模型:的映射。

2. BP算法(网络学习/拟合)

给定数据,定义

那么

接下来的拟合优化问题就是最小化。这里可以采用梯度下降:

,所以需要求得这两个梯度(偏导)项。

定义,这样,其中

类似的,

为了解这个东西,我们需要后向递归。

首先在第L层:,然后

For L-1,...,1,我们有,这样就一直可以迭代反推至第一层。

3. AE(自编码器,Auto-Encoders)

auto-encoder

自编码器可以算是一个简化的神经网,大致只有三层:0,1,2。其中输入是x,输出也是x,但是中间进行了一个过滤。直观的讲,就像一个文件压缩了一下,又解压缩。中间压缩包的体积要比源文件小,但是信息却基本没有损失。

AE基本上想达到两个目标:

1. ,即中间那层的维数小于原始输入的维数p。

2. 或者输出的均值非常小,即从第一层到最上面一层的输出较为稀疏,不是很强烈的关联。

下节课会讲到SVM。

Categories
读书有感

≪统计学习精要(The Elements of Statistical Learning)≫课堂笔记(十七):神经网络

神经网络,这是要开始Deep Learning了么?

神经网络的历史和大起大落还是可以八卦一下的...

第一波:人工神经网络起源于上世纪40年代,到今天已经70年历史了。第一个神经元模型是1943年McCulloch和Pitts提出的,称为thresholdlogic,它可以实现一些逻辑运算的功能。自此以后,神经网络的研究分化为两个方向,一个专注于生物信息处理的过程,称为生物神经网络;一个专注于工程应用,称为人工神经网络。

第二波:上世纪80年代神经网络的研究热潮。带反馈的神经网络开始兴起,其中以Stephen Grossberg和John Hopfield的工作最具代表性。很多复杂的认知现象比如联想记忆都可以用反馈神经网络进行模拟和解释。一位在神经网络领域非常资深的学者跟我聊天时说,在那个年代,只要你的文章跟神经网络扯上点关系,无论什么杂志,都很容易发表。

第三波:直到2006年深度网络(deep network)和深度学习(deep learning)概念的提出,神经网络又开始焕发一轮新的生命。深度网络,从字面上理解就是深层次的神经网络。至于为什么不沿用以前的术语“多层神经网络”,个人猜测可能是为了与以前的神经网络相区分,表示这是一个新的概念。这个名词由多伦多大学的GeoffHinton研究组于2006年创造。事实上,Hinton研究组提出的这个深度网络从结构上讲与传统的多层感知机没有什么不同,并且在做有监督学习时算法也是一样的。唯一的不同是这个网络在做有监督学习前要先做非监督学习,然后将非监督学习学到的权值当作有监督学习的初值进行训练。

上述来自:http://www.caai.cn/contents/118/1934.html

有没有感觉最近deep learning热得一塌糊涂?好像是个人都知道有这么个词儿但是真正知道他干什么的、怎么来的的人却不怎么多。嗯,貌似从这节课开始,要掀起deep

learning的篇章咯。顿时感觉好洋气哇。

----------正文的分割线-----------

这节课先介绍七十多年前的Perceptron模型。

1. 神经元

大致就是这样一张图片。神经元细胞有个大大的细胞核,然后有个轴突。如果神经元细胞拼在一起,可以构成一个神经网络。

perceptron

(我觉得这个细胞模型和后面的东西其实没太直接的联系...就是一个很好看的图...)

2. Perceptron模型

Perceptron模型有若干输入:,标记为序列。

每个输入都有一个权重(某种程度上可以理解为信息损失):,标记为序列。

最后每个“细胞”还有一个偏(门限):b,即我们常说的常数项截距。

最终的状态:

输出:,比较简单的情况下,可以是一个二元输出函数,比如或者写作。但是比较讨厌的是这个函数不可微,所以我们可以转成一个可微的函数(有点类似logistic regression的思路,用概率的密度函数来做)。

sigmoid

可微的情况下,这个输出就是:,这样就可以做成一个光滑的曲线了。

3. Perceptron算法

给定一批数据, 我们希望求得使得,如果;否则,(即

算法:先是我们可以不断重复的无限复制数据:

然后初始化:,

开始循环:

For

IF ,then

定理 如果存在w使得成立(即平面线性可分),则Perceptron算法在有限步收敛。

证明:

  • (仅计算改过的)
  • 存在使得,那么我们有,同时我们有这样就会有,当k趋近无穷大的时候,显然左式不成立。所以必有在某个k的时候停止迭代。

4. 推广至多类——Collins算法(2002)

(1) Collins表述

给定 ,求w使得,除了外最大。这样

(2)算法:,

初始化:,.

For

计算

输出:

(3)定理。若为线性平面可分,则在有限步内收敛。