卷积神经网络中一维卷积的计算过程

卷积神经网络（CNN）是深度学习中常用的网络架构，在智能语音中也不例外，比如语音识别。语音中是按帧来处理的，每一帧处理完就得到了相对应的特征向量，常用的特征向量有MFCC等，通常处理完一帧得到的是一个39维的MFCC特征向量。假设一段语音有N帧，处理完这段语音后得到的是一个39行N列（行表示特征维度，列表示帧数）的矩阵，这个矩阵是一个平面，是CNN的输入。应用在图像问题上的CNN通常是二维卷积（因为图像有RGB三个通道），而语音问题上的CNN输入是一个矩阵平面，可以用一维卷积。本文就讲讲一维卷积是怎么处理的。

所谓一维卷积是指卷积核只在一个方向上移动。具体到语音上，假设一段语音提取特征后是一个M行N列（M表示特征维度，N表示帧数）的矩阵平面，卷积核要在帧的方向上从小到大移动，下图给出了示意。

卷积核也是一个矩阵（J行K列）。由于卷积核只在一个方向上移动，要把所有的特征值都覆盖到，必须卷积核的行数要等于特征值矩阵的行数，即J = M，所以描述卷积核时只需要知道kernel size（即多少列）和 kernel count（即多少个kernel）。

知道kernel size和kernel count后，再来看一维卷积的计算过程，看一个输入矩阵经过一维卷积后得到的是什么。设定padding模式为same（卷积处理后的输出矩阵与输入矩阵有相同的列数），stride为1（kernel一次只移动一格）。假定输入矩阵为3×5的矩阵，kernel个数为2，kernel size为3，所以kernel是一个3×3的矩阵。输入矩阵和两个kernel矩阵的具体值如下图，两个kernel的bias分别是2和3。