订阅
纠错
加入自媒体

突破瓶颈高效测评:谷歌提出自然语言生成任务评测新方法BLEURT

2020-05-29 14:30
将门创投
关注

利用机器学习创造一个度量标准需要解决根本的挑战:这一指标需要在不同域和时间上具备连续性。然而训练数据的数量总是有限的,同时公开数据集也是稀疏的。即使目前最大的人类评测数据集WMT度量任务数据集,包含了260k的人类测评,仅仅只覆盖了新闻领域。这对于训练一个适用范围广泛的NLG测评指标远远不够。

为了解决这一问题,迁移学习被引入了这项研究。首先充分利用了BERT中上下文词语表示,BERT是目前用于语言理解最先进的非监督表示学习方法,并成功应用于想YiSi和BERTScore等NLG指标上。

其次研究人人员引入了一种新颖的预训练机制来提升BLEURT的鲁棒性。实验表明直接在人类测评数据集上训练回归模型十分不稳定,因为无法控制测评指标在哪个域或者哪个时间跨度上使用。其精度很容易在出现域漂移的情况时下降,例如测试时文本信息来自于与训练句子对不同的域时。同时在质量漂移时其性能也会下架,例如要预测评级比训练评级高时就可能引起性能下降,不过这也是机器学习研究正在取得进展的标志特征。

BLEURT的成功取决于模型利用数百万合成句子对儿来进行预热,随后再利用人类评级进行微调。通过给来自维基百科的句子加入随机扰动来生成训练数据,研究人员没有采用人类评级而是利用了文献中的模型和指标,使得训练样本的数量可以低成本地进行扩充。

BLEURT数据生成过程,结合了随机扰动和现有的指标和模型。

BLEURT的预训练分别在语言模型目标和NLG评测目标上训练了两次。随后在WMT指标数据集上进行了调优,下图展示了BLEURT端到端的训练流程。实验表明预训练模型极大地提升了BLEURT的精度,特别在测试分布外数据时尤其如此。

结  论

与多个指标在机器翻译和数据文本生成任务上的比较结果表明,BLEURT显示出了优异的性能。例如BLEURT在2019年的WMT Metrics Shared任务上的精度超过了BLEU48%。

在WMT’19 Metrics Shared 任务上,不同指标和人类评级结果的相关性。

研究人员希望这一指标可以为NLG任务提供更好的评测方式,提供灵活的语义的评测视角。BLEURT可以为人们提供除了重合度外更好的测评指标,打破现有测评方法对于算法研发的束缚。

<上一页  1  2  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

人工智能 猎头职位 更多
扫码关注公众号
OFweek人工智能网
获取更多精彩内容
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号