中科院计算所副研究员冯洋：神经机器翻译的训练改进和解码提速

2020-04-07 16:18

2．非自回归解码

最后介绍一下基于非自回归的解码方法，传统的解码方法是顺序生成的。如果能够使得解码的时候并行的方式生成，这速度将会大大的提升。

传统的非自回归模型的做法是，在Transformer Encoder端头部加一个Fertility预测，用来预测每个源端Token能翻译成一个目标端的Token，然后根据预测的结果，将源端的Token拷贝到Decoder的输入，如果一个源端Token能够翻译两个目标Token，那就拷贝两次，如果源端Token不会翻译成目标端Token，那就不拷贝。由于每一步输出的译文是没有给到下一步的，所以是可以并行的。对于Fertility的训练是采用某种对齐模型，通过计算源端和目标端的对齐关系，然后就可以得到源端和目标端的对齐结果，就可以采用监督的方式来训练Fertility分支。

该方法有一个问题，就是在翻译当前步的时候没有考虑上一步的翻译信息。这样就可能导致翻译结果的流畅度不够好。我们的方法就是在该方法的基础上添加了序列上的信息。这样模型既能并行执行，又能考虑的到前后的序列关系。

我们的工作分为两个方面，一个是在训练上添加序列信息，一个是在模型上面同样也添加序列信息。序列训练采用的是Reinforce的方法，Reinforce的方法非常难以训练，这是因为其方差非常大，方差大的原因是强化学习episode（一条轨迹从开始到结束）的搜索空间非常大，我们每次只是采样出一个episode，然后根据这个episode进行计算，通过大数定律，我们可以假设这最终得到的是一个梯度的无偏估计。但是在实际情况下，抖动是非常大的。

将Reinforce算法应用到我们这个场景，首先看第一个公式，由于目标端词的概率是独立的，所以就可以写成连乘的形式，第二个公式就是传统的Reinforce公式，就是翻译的reward。是通过前向后向算法计算出来的当前步的reward。

上面的slides介绍的是计算reward时候的不同，接下来看sampling机制的区别。根据生成前后词的独立性，每一步我们并不是采样出一个词，而是采样出K＋1个词。这样的话就可以看做我们一次更新的过程中考虑到更多的episode，而不是仅用一个episode就去训练了。具体的做法是，每一步，我们先取Top－K，计算一下损失函数的值，然后从剩下的Token中再采样出来一个。我们将这两部分的loss合起来，是为了保证无偏估计。为前k个翻译的概率的和。

另外一个方法就是模型上的改进，在非自回归层的上面加上自回归层。具体的做法是，模型分为 Bottom Layer，Fusion Layer，Top Layer。Bottom Layer就是之前介绍的非自回归模型，Fusion Layer的作用是将非自回归模型的输出和其Embedding整合起来，Top－Layer和Transformer 的解码器基本一致。

实验结果：AR（Transformer），NAT（非自回归的方法），IRNAT（迭代的非自回归方法），最后是我们提出的方法，第一种是在训练的过程中引入序列信息，第二是在模型上进行改进。作为对比的数据集有三个，前两个数据集比较小。主要关注第三个数据集。可以看出，使用NAT来代替AR模型的话，效果会降6个点左右，迭代的方法会带来1到2个点的提升。我们提出的reinforce方法和传统的reinforce方法相比，有0．6个点的提升。加上回归层的模型已经接近Transformer的效果了。关于速度的提升，如果仅训练的时候采用序列信息，速度可以提升10倍。如果是NAT加上自回归层的方法，速度也可以提高4倍左右。