侵权投诉

BERT


  • 技术文章:将BERT应用于长文本

    背景自从谷歌的BERT预训练模型横空出世,预训练-下游任务微调的方式便成了自然语言处理任务的灵丹妙药。然而,复杂度高、显存消耗大等问题一直困扰着BERT等预训练模型的优化;由于BERT中Transformer(多层自注意力)关于输入文本长度L有的O()的时间空间复杂度,长文本消耗显存陡然增加

    CogLTXBERT 2020-12-08

粤公网安备 44030502002758号