Meta新研究让Llama 2自我迭代赶超GPT-4

10次阅读
没有评论

共计 380 个字符,预计需要花费 1 分钟才能阅读完成。

1 月 18 日,Meta 和纽约大学研究团队发布一项新成果——自我奖励语言模型,支持大模型在自己生成自己的微调数据,从而实现自我迭代。基于该方法的三次迭代上微调 Llama 2-70B 产生的模型优于 AlpacaEval 2.0 排行榜上的许多现有系统,包括 Claude 2、Gemini Pro 和 GPT-4。为了实现超人智能体(Agents),传统的方法通常根据人类的偏好来训练奖励模型,这可能会受到人类表现水平的限制;其次,这些单独的冻结奖励模型无法在 LLM 训练中学习改进。因此团队研究了自我奖励语言模型,其中语言模型本身通过 LLM-as-a-Judge 提示在训练期间提供自己的奖励。结果表明,在迭代 DPO 训练过程中,它们不仅指令遵循能力得到了提高,而且对自身提供高质量奖励的能力也得到了提高。

论文地址:https://arxiv.org/pdf/2401.10020.pdf

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-23发表,共计380字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码