百度提出的持续学习语义理解框架RNIE基本原理简析

2020-12-17 09:30

三、ERNIE

介绍了 ERNIE 的骨架结构后，下面再来介绍了 ERNIE 的原理。

ERNIE 分为 1．0 版和 2．0 版，其中ERNIE 1．0是通过建模海量数据中的词、实体及实体关系，学习真实世界的语义知识。相较于BERT学习原始语言信号，ERNIE 1．0 可以直接对先验语义知识单元进行建模，增强了模型语义表示能力。例如对于下面的例句：“哈尔滨是黑龙江的省会，国际冰雪文化名城”

图3 ERNIE 1．0 与 BERT 词屏蔽方式的比较 BERT在预训练过程中使用的数据仅是对单个字符进行屏蔽，例如图3所示，训练Bert通过“哈”与“滨”的局部共现判断出“尔”字，但是模型其实并没有学习到与“哈尔滨”相关的知识，即只是学习到“哈尔滨”这个词，但是并不知道“哈尔滨”所代表的含义；而ERNIE在预训练时使用的数据是对整个词进行屏蔽，从而学习词与实体的表达，例如屏蔽“哈尔滨”与“冰雪”这样的词，使模型能够建模出“哈尔滨”与“黑龙江”的关系，学到“哈尔滨”是“黑龙江”的省会以及“哈尔滨”是个冰雪城市这样的含义。

训练数据方面，除百科类、资讯类中文语料外，ERNIE 1．0 还引入了论坛对话类数据，利用对话语言模式（DLM， Dialogue Language Model）建模Query－Response对话结构，将对话Pair对作为输入，引入Dialogue Embedding标识对话的角色，利用对话响应丢失（DRS， Dialogue Response Loss）学习对话的隐式关系，进一步提升模型的语义表示能力。

因为 ERNIE 1．0 对实体级知识的学习，使得它在语言推断任务上的效果更胜一筹。ERNIE 1．0 在中文任务上全面超过了 BERT 中文模型，包括分类、语义相似度、命名实体识别、问答匹配等任务，平均带来 1～2 个百分点的提升。

我们可以发现 ERNIE 1．0 与 BERT 相比只是学习任务 MLM 作了一些改进就可以取得不错的效果，那么如果使用更多较好的学习任务来训练模型，那是不是会取得更好的效果呢？因此 ERNIE 2．0 应运而生。ERNIE 2．0 是基于持续学习的语义理解预训练框架，使用多任务学习增量式构建预训练任务。如图4所示，在ERNIE 2．0中，大量的自然语言处理的语料可以被设计成各种类型的自然语言处理任务（Task），这些新构建的预训练类型任务（Pre－training Task）可以无缝的加入图中右侧的训练框架，从而持续让ERNIE 2．0模型进行语义理解学习，不断的提升模型效果。

小媛插一句： NLP岗面试可是被问到过ERNIE 1．0 与 2．0 的区别哦，重点画好了，你们看着办

图4 ERNIE 2．0框架

ERNIE 2．0 的预训练包括了三大类学习任务，分别是：

词法层任务：学会对句子中的词汇进行预测。

语法层任务：学会将多个句子结构重建，重新排序。

语义层任务：学会判断句子之间的逻辑关系，例如因果关系、转折关系、并列关系等。

通过这些新增的语义任务，ERNIE 2．0语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息，极大地增强了通用语义表示能力。ERNIE 2．0模型在英语任务上几乎全面优于BERT和XLNet，在7个GLUE任务上取得了最好的结果；中文任务上，ERNIE 2．0模型在所有9个中文NLP任务上全面优于BERT。

四、然后呢？

完成预训练后，如何用 ERNIE 来解决具体的 NLP 问题呢？

下面以单句分类任务（如情感分析）为例，介绍下游 NLP 任务的解决过程：

基于tokenization．py脚本中的Tokenizer对输入的句子进行token化，即按字粒度对句子进行切分；

分类标志符号［CLS］与token化后的句子拼接在一起作为ERNIE模型的输入，经过 ERNIE 前向计算后得到每个token对应的embedding向量表示；

在单句分类任务中，［CLS］位置对应的嵌入式向量会用来作为分类特征。只需将［CLS］对应的embedding抽取出来，再经过一个全连接层得到分类的 logits 值，最后经过softmax归一化后与训练数据中的label一起计算交叉熵，就得到了优化的损失函数；

经过几轮的fine－tuning，就可以训练出解决具体任务的ERNIE模型。