deep learning – 落园

前馈神经网，BP算法，AE（自编码器，Auto-Encoders)

1. 前馈神经网（Multilayer Feedforward Network）

前馈神经网大致就是这个样子，一层一层的结构。这样，我们就由第一代的神经元系统繁殖出来了一个神经元群落...看起来很高深的样子。

先说一些参数和记号：

L：网络的层次
，：表示第层中神经元的个数。特别的，为所有输入变量的个数（x的维数），是网络输出的个数。
，，：相邻两层（到)之间的连接的权重。
：第层第个神经元的偏置值。
,,：第层第个神经元的状态值。
,,：第层第个神经元的活性（activation)，或称为输出。

基本关系：

，，

模型：为的映射。

2. BP算法（网络学习/拟合）

给定数据，定义

那么

接下来的拟合优化问题就是最小化。这里可以采用梯度下降：

，，所以需要求得这两个梯度（偏导）项。

定义，这样，其中。

类似的，

为了解这个东西，我们需要后向递归。

首先在第L层：，然后

For L-1,...,1，我们有，这样就一直可以迭代反推至第一层。

3. AE（自编码器，Auto-Encoders)

自编码器可以算是一个简化的神经网，大致只有三层：0，1，2。其中输入是x，输出也是x，但是中间进行了一个过滤。直观的讲，就像一个文件压缩了一下，又解压缩。中间压缩包的体积要比源文件小，但是信息却基本没有损失。

AE基本上想达到两个目标：

1. ，即中间那层的维数小于原始输入的维数p。

2. 或者输出的均值非常小，即从第一层到最上面一层的输出较为稀疏，不是很强烈的关联。

下节课会讲到SVM。

神经网络，这是要开始Deep Learning了么？

神经网络的历史和大起大落还是可以八卦一下的...

第一波：人工神经网络起源于上世纪40年代，到今天已经70年历史了。第一个神经元模型是1943年McCulloch和Pitts提出的，称为thresholdlogic，它可以实现一些逻辑运算的功能。自此以后，神经网络的研究分化为两个方向，一个专注于生物信息处理的过程，称为生物神经网络；一个专注于工程应用，称为人工神经网络。

第二波：上世纪80年代神经网络的研究热潮。带反馈的神经网络开始兴起，其中以Stephen Grossberg和John Hopfield的工作最具代表性。很多复杂的认知现象比如联想记忆都可以用反馈神经网络进行模拟和解释。一位在神经网络领域非常资深的学者跟我聊天时说，在那个年代，只要你的文章跟神经网络扯上点关系，无论什么杂志，都很容易发表。

第三波：直到2006年深度网络（deep network）和深度学习（deep learning）概念的提出，神经网络又开始焕发一轮新的生命。深度网络，从字面上理解就是深层次的神经网络。至于为什么不沿用以前的术语“多层神经网络”，个人猜测可能是为了与以前的神经网络相区分，表示这是一个新的概念。这个名词由多伦多大学的GeoffHinton研究组于2006年创造。事实上，Hinton研究组提出的这个深度网络从结构上讲与传统的多层感知机没有什么不同，并且在做有监督学习时算法也是一样的。唯一的不同是这个网络在做有监督学习前要先做非监督学习，然后将非监督学习学到的权值当作有监督学习的初值进行训练。

上述来自：http://www.caai.cn/contents/118/1934.html

有没有感觉最近deep learning热得一塌糊涂？好像是个人都知道有这么个词儿但是真正知道他干什么的、怎么来的的人却不怎么多。嗯，貌似从这节课开始，要掀起deep

learning的篇章咯。顿时感觉好洋气哇。

----------正文的分割线-----------

这节课先介绍七十多年前的Perceptron模型。