您的当前位置：首页正文

【DL】1 RNN入门——李宏毅机器学习课程RNN笔记

来源：吉趣旅游网

1. 应用实例（为什么需要RNN？）

槽位填充

输入：一个单词(每一个词都用一个向量表示)

输出：属于槽的输入字的概率分布情况

注：如何将每个单词表示为一个向量？

1-of-N encoding
矢量是词库大小，每一个维度都对应着词典中的一个词，该词的维度为1，其他维度为0。
Beyond 1-of-N encoding
Dimension for “Other”

前向网络问题：

arrive Taipei on November 2nd
leave Taipei on November 2nd

希望神经网络在输入Taipei 的时候记住前一个词’leave’或者’arrive’，这就是RNN

2. RNN基本概念

隐藏层的输出存储在存储器中，记忆可以被认为是另一种输入

对于以上填充槽问题，同样的网络一用再用：

艾尔曼(Elman)网络和约旦(Jordan)网络(有更好的表现)

双向(Bidirectional)RNN

3. Long Short-term Memory (LSTM)

仔细来看，LSTM形式如下：

激活函数f通常是一个sigmoid函数，在0和1之间，模仿开关门(注：forget gate打开是记得，关上是遗忘)

有一个LSTM的例子，如下：

当x2=1时，将x1的数字加到存储器中
当x2=-1时，重置内存
当x3=1时，输出存储器中的数字

更具体的例子在的28：16，如下：

LSTM和以前学的神经网络有什么关系呢？

原网络：

只需将神经元替换为LSTM即可：

LSTM和RNN关系是什么呢？

把一排LSTM接起来，组成vector：

多层LSTM，这是相当标准的了：

不要担心，如果你不能理解这一点，Keras可以处理。Keras支持"LSTM"、“GRU”(LSTM的简化版本)、"SimpleRNN "Layers

4. RNN使用

4.1 Loss function

4.2 训练方法

时间回溯传播（BPTT）

不幸的是（问题）：基于RNN的网络并不总是容易学习的

误差面(error surface)很粗糙，误差面要么很平，要么很陡

为什么RNN会有这种奇怪的特性？

并不是因为使用sigmoid function导致梯度消失导致误差变化很小，下面举例说明为什么

假设：

w = 1， $y^{1000} = 1$
w = 1.01， $y^{1000} = 20000$ → large $\partial L / \partial w$ → 调小学习率
w = 0.99， $y^{1000} = 0$
w = 0.01， $y^{1000} = 0$ → small $\partial L / \partial w$ → 调大学习率

怎么解决？

Long Short-term Memory (LSTM)可以处理梯度消失(不是梯度爆炸)，为什么能解决？（门控循环单元（Gated Recurrent Unit, GRU）：比LSTM简单）
- 内存和输入是增加的
- 影响力永远不会消失，除非忘记门被关闭（无梯度消失(如果忘记门被打开)）
Clockwise RNN
Structurally Constrained Recurrent Network (SCRN)
Vanilla RNN初始化，Identity matrix + ReLU激活函数

5. RNN的应用前景

之前，输入和输出都是相同长度的序列，RNN可以做得更多!

多对一
输入是一个向量序列，但输出只有一个向量
多对多
输入和输出都是序列，但输出较短，例如：语音识别

解决办法：Connectionist Temporal Classification (CTC) ，增加一个代表 "空 "的符号 “φ”。

CTC训练，穷举所有的结果：
多对多（无限制）
输入和输出都是长度不同的序列→ 序列到序列的学习，如：机器翻译（machine learning→机器学习）

所以需要增加一个符号"==="（断）

超越序列
句法解析
序列到序列
自动编码器 - 文本
要理解词序的含义，不能忽视词的顺序，例如一字不差却含义不同的例子：
- white blood cells destroying an infection(positive)
- an infection destroying white blood cells(negative)

自动编码器 - 语音
变长序列的尺寸缩小
音段 (词水平)到固定长度向量

音频档案分为不同长度的音频段

RNN编码器和解码器联合训练

词的嵌入向量可视化

基于注意力的模式

基于注意力的模式v2(神经图灵机)

主要用在阅读理解中

视觉答题

语音答题

RNN v.s. Structured Learning

小结

第二次看李宏毅老师机器学习课程RNN的课程，主要对RNN的基本概念和LSTM有一个大体的回顾，以及RNN的应用方向，接下来在pytorch编程实现LSTM网络

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文