术语表

算法待执行的指令序列。这些指令包含数学运算、测试和循环等，通常由计算机执行。请勿与下列术语混淆：

-代码：指计算机语言编写或规范的算法。

-程序：指执行特定任务的一段代码。

-软件：指构成应用的程序合集。

机器学习 不使用显式编程训练系统的一套系统。在监督学习中，训练系统基于输入和相应输出的示例来完成一项任务。在强化学习中，系统借助实验和错误，通过与环境交互得到训练。在无监督学习和自监督学习中，系统发现输入变量之间的相互依赖关系，而不需要为执行某一特定任务而接受训练。最常用的方法是通过梯度下降使一个目标函数最小化。

深度学习 一套适用于相互连接的参数化模块的网络（或图形）的学习方法。通过梯度下降，学习能修改模块参数。梯度通常由反向传播获得。深度学习的一个示例是训练多层神经网络。

架构参数化模块的互联结构。这种结构也可以看作是一个带有参数的数学函数或者一种计算图，后者由表示操作的节点和表示变量或参数的连接构成。识别图像或者理解文本的架构可以包含数百万或数亿个参数。工程师决定架构，卷积网络、递归网络和转换网络都是架构中的一种。架构独立于训练，训练是控制系统参数调整的程序。

编译器 将工程师编写的程序转换为可由机器直接执行的指令序列的软件。

ConvNet参见“卷积网络”相关内容。

卷积滤波的数学运算。卷积网络使用离散卷积运算，后者包括计算一个窗口（一部分图像或者任意信号）的加权和，并使该窗口在整个输入信号（如图像）上滑动，同时把结果储存在输出信号中。所有窗口的加权和权重是相同的。如果输入信号被翻译，则输出信号也会被翻译，但其他方面保持不变。卷积可以检测一个模式，而不用考虑其在输入信号中的位置。

隐藏层 在多层网络中，输入层和输出层被称为“可见”，其他层为“隐藏”，因为它们不能从外部直接观测到。在训练中，最后一层的期望输出是特定的，但不包括隐藏层的输出。确定隐藏层的输出是深度学习的难点，这是信用分配的问题。

Deep learning参见“深度学习”相关内容。

FLOP（floating point operation），浮点运算“浮点数”运算是计算机中由固定位数（尾数）和小数点位置（阶码）表示的数字的乘法或加法。最常见的方法是使用32位浮点表示，其中尾数为24位，阶码为10位。一些深度学习的软件和硬件使用16位浮点表示，以加速运算并减少内存流量。

函数由一个或多个输入产生一个或多个输出的数学运算序列。一个函数族或一个模型，是一个取决于一个或多个参数的函数。模型的架构是参数化函数的一个示例。

成本函数测量模型行为和期望行为之间差异的函数。在监督学习中，成本函数是模型输出和训练样本的平均期望输出之间的差异。学习过程试图寻找可以产生成本函数最小值的参数值，即最小化成本函数。

GFLOPS（giga floating point operations per second），每秒千兆浮点运算衡量处理器速度的单位，相当于每秒10亿次浮点运算。1 GFLOPS=1000 MFLOPS。

GOFAI（good old-fashioned artificial intelligence），好的老式人工智能基于逻辑、规则和搜索算法的传统人工智能方法，因为它们在机器学习出现之前就已经被应用了。

梯度对于一个多元函数，梯度是一个在任意点上都指向最大斜率方向的向量，其长度等于此斜率。梯度向量的分量是函数在当前位置的偏导数，即函数在各轴方向的斜率。

ImageNet 由美国学者开发的用于图像中物体识别的计算机视觉研究数据库。最常使用的ImageNet-1k包含130多万张训练图像，它们被标记为表明其所包含的主要物体的类别，共计约1000个类别。从2010年开始，ImageNet还指代图像识别软件的年度竞赛，即ImageNet大规模视觉识别挑战赛（ILSVRC）。

Machine learning参见“机器学习”相关内容。

MFLOPS（mega floating point operations per second），每秒百万浮点运算衡量处理器速度的单位，相当于每秒100万次浮点运算。

神经认知机（Neocognitron）日本研究员福岛邦彦设计的模式识别机器，受大卫·休伯尔和托斯坦·威泽尔的视觉皮层架构研究的启发。神经认知机由两个阶段构成，每一阶段都包含一个与视野的一小块区域相连的简单细胞层，下一层是集成了上一层激活信息的复杂细胞层，后者具有相对于小的变形的不变性表征。福岛邦彦一共发布了两个版本：20世纪70年代的认知机（Congitron）和80年代的神经认知机。

字节包含8个比特位（bit）的计算机内存单元，可代表256个不同的值。计算机内存通常以字节的倍数衡量，如千字节（kB）、兆字节（MB）、千兆字节（GB）和太字节（TB）。太字节代表大约1万亿字节，即240 字节。

卷积网络 一种特殊的神经网络架构，在自然信号识别方面十分有效，如图像、体积图像（如MRI）、视频、语音、音乐及文本。它穿插了多层卷积、非线性运算和池化运算。卷积网络被广泛应用于自动驾驶汽车、医学图像分析系统、人脸识别和语音识别等。

多层神经网络 多层人工神经元组成的堆栈，每一层的输入神经元都与上一层的输出神经元相连。每个神经元都由线性函数构成，其输出为输入的加权和，之后是一个非线性激活函数。该激活函数可以是一个平方、一个绝对值、一个sigmoid函数（S形函数）或者一个ReLu函数。多层神经网络会学习、修改加权和的权重。通常使用梯度下降训练这些网络，梯度通过反向传播计算。

梯度反向传播 计算成本函数相对于深度学习系统内部变量的梯度的方法。给定一个代表系统架构的计算图，梯度逐步向后传播，从输入到输出。这是一个自动微分的应用。使用梯度来调整架构的参数，以期最小化成本函数。

语义分割 标注图像中每个像素所属的对象类别。

TFLOPS（tera floating point operations per second），每秒万亿浮点运算衡量处理器速度的单位，相当于每秒1万亿次浮点运算，即1000 GFLOPS。