谷歌推出预训练语言模型 SpacTor-T5

54次阅读
没有评论

共计 598 个字符,预计需要花费 2 分钟才能阅读完成。

谷歌推出一种名为 SPACTOR 的新的预训练方法,用于改进 T5 模型的效率和泛化能力。该方法包括两个关键要素:一是将 span corruption(SC)预训练任务与 ELECTRA 中提出的 replaced token detection(RTD)目标相结合;二是采用两阶段的预训练策略,先在初始的一定迭代次数内优化混合目标,然后转换为标准的 SC 损失进行预训练。

论文地址:https://arxiv.org/abs/2401.13160

SPACTOR 方法的特点在于它通过引入 RTD 目标来增强 SC 预训练任务,使得模型能够更好地学习文本表示。同时,该方法还通过两阶段的预训练策略显著提高了各种下游任务的性能。与其他方法相比,SPACTOR 在保持任务性能的同时,能够减少 50% 的预训练迭代次数和 40% 的计算资源消耗。

SPACTOR 方法的具体实现是通过在输入文本中引入 SC 和 RTD 的掩码,并对其进行顺序应用。SC 掩码用于选择一些不重叠的文本片段,并将其替换为特殊的标记。RTD 目标则是让模型判断哪些标记是被替换过的。通过辅助生成模型和鉴别器模型的训练,模型能够同时学习到这两个任务。

该方法的具体应用场景是在自然语言处理(NLP)任务中,特别是对于使用 T5 模型进行编码 - 解码的任务。通过采用 SPACTOR 方法进行预训练,可以显著提高模型在各种 NLP 任务上的性能,并且在相同的计算资源预算下,能够取得更好的下游任务表现。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-27发表,共计598字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码