动手学深度学习

type

status

date

slug

summary

1.引言

1.1日常生活中的机器学习

机器学习:不需要设计一个“明确地”识别唤醒词的系统,只需要定义一个灵活的程序算法，其输出由许多参数（parameter）决定，然后使用数据集来确定当下的“最佳参数集”，这些参数通过某种性能度量方式来达到完成任务的最佳性能。

模型:任一调整参数后的程序被称为模型（model）。

学习算法:使用数据集来选择参数的元程序被称为学习算法（learning algorithm）。

1.2机器学习中的关键组件

Key

可以用来学习的数据（data）

如何转换数据的模型（model）

一个目标函数（objective function），用来量化模型的有效性

调整模型参数以优化目标函数的算法（algorithm）

1.2.1数据

每个数据集由一个个样本（example, sample）组成，大多时候，它们遵循独立同分布(independently and identically distributed, i.i.d.)。

通常每个样本由一组称为特征（features，或协变量（covariates））的属性组成。机器学习模型会根据这些属性进行预测。

在上面的监督学习问题中，要预测的是一个特殊的属性，它被称为标签（label，或目标（target））。

数据的维数（dimensionality）:当每个样本的特征类别数量都是相同的时候，其特征向量是固定长度的，这个长度被称为数据的维数。

与传统机器学习方法相比，深度学习的一个主要优势是可以处理不同长度的数据。

当数据不具有充分代表性，甚至包含了一些社会偏见时，模型就很有可能有偏见。lili

1.2.2模型

深度学习与经典方法的区别主要在于：前者关注的功能强大的模型，这些模型由神经网络错综复杂的交织在一起，包含层层数据转换，因此被称为深度学习（deep learning）。

1.2.3目标函数

在机器学习中，我们需要定义模型的优劣程度的度量，这个度量在大多数情况是“可优化”的，这被称之为目标函数（objective function）。

通常，损失函数是根据模型参数定义的，并取决于数据集。在一个数据集上，我们可以通过最小化总损失来学习模型参数的最佳值。

当一个模型在训练集上表现良好，但不能推广到测试集时，这个模型被称为过拟合（overfitting）的。

1.2.4优化算法

当我们获得了一些数据源及其表示、一个模型和一个合适的损失函数，接下来就需要一种算法，它能够搜索出最佳参数，以最小化损失函数。

梯度下降法（gradient descent）:在每个步骤中，梯度下降法都会检查每个参数，看看如果仅对该参数进行少量变动，训练集损失会朝哪个方向移动。然后，它在可以减少损失的方向上优化参数。

1.3各种机器学习问题

1.3.1监督学习

监督学习（supervised learning）擅长在“给定输入特征”的情况下预测标签。每个“特征-标签”对都称为一个样本（example）。有时，即使标签是未知的，样本也可以指代输入特征。我们的目标是生成一个模型，能够将任何输入特征映射到标签（即预测）。

1.3.1.1回归(regression):任何有关“有多少”的问题很可能就是回归问题。

1.3.1.2分类(classification)

这种“哪一个”的问题叫做分类（classification）问题。分类问题希望模型能够预测样本属于哪个类别（category，正式称为类（class））。

与解决回归问题不同，分类问题的常见损失函数被称为交叉熵（cross-entropy）。

人们宁愿错误地分入一个相关的类别，也不愿错误地分入一个遥远的类别，这通常被称为层次分类(hierarchical classification)。

1.3.1.3标记

学习预测不相互排斥的类别的问题称为多标签分类（multi-label classification）。

1.3.1.4 搜索

1.3.1.5推荐系统

总的来说，推荐系统会为“给定用户和物品”的匹配性打分，这个“分数”可能是估计的评级或购买的概率。

1.3.1.6 序列学习

1.3.2无监督学习

聚类（clustering）问题：没有标签的情况下，我们是否能给数据分类呢？

主成分分析（principal component analysis）问题：我们能否找到少量的参数来准确地捕捉数据的线性相关属性？

因果关系（causality）和概率图模型（probabilistic graphical models）问题：我们能否描述观察到的许多数据的根本原因？

生成对抗性网络（generative adversarial networks）：为我们提供一种合成数据的方法，甚至像图像和音频这样复杂的非结构化数据。

1.3.3与环境互动

不管是监督学习还是无监督学习，我们都会预先获取大量数据，然后启动模型，不再与环境交互。这里所有学习都是在算法与环境断开后进行的，被称为离线学习（offline learning）。

1.3.4强化学习

在强化学习问题中，智能体（agent）在一系列的时间步骤上与环境交互。在每个特定时间点，智能体从环境接收一些观察（observation），并且必须选择一个动作（action），然后通过某种机制（有时称为执行器）将其传输回环境，最后智能体从环境中获得奖励（reward）。

但在强化学习中，我们并不假设环境告诉智能体每个观测的最优动作。一般来说，智能体只是得到一些奖励。此外，环境甚至可能不会告诉是哪些行为导致了奖励。

强化学习者必须处理学分分配（credit assignment）问题：决定哪些行为是值得奖励的，哪些行为是需要惩罚的。

当环境可被完全观察到时，强化学习问题被称为马尔可夫决策过程（markov decision process）。当状态不依赖于之前的操作时，我们称该问题为上下文赌博机（contextual bandit problem）。当没有状态，只有一组最初未知回报的可用动作时，这个问题就是经典的多臂赌博机（multi-armed bandit problem）。

1.4起源

当今大多数网络中都可以找到的几个关键原则：

线性和非线性处理单元的交替，通常称为层（layers）；

使用链式规则（也称为反向传播（backpropagation））一次性调整网络中的全部参数。