Meta新研究让Llama 2自我迭代赶超GPT-4

45次阅读

共计 380 个字符，预计需要花费 1 分钟才能阅读完成。

1 月 18 日，Meta 和纽约大学研究团队发布一项新成果——自我奖励语言模型，支持大模型在自己生成自己的微调数据，从而实现自我迭代。基于该方法的三次迭代上微调 Llama 2-70B 产生的模型优于 AlpacaEval 2.0 排行榜上的许多现有系统，包括 Claude 2、Gemini Pro 和 GPT-4。为了实现超人智能体（Agents），传统的方法通常根据人类的偏好来训练奖励模型，这可能会受到人类表现水平的限制；其次，这些单独的冻结奖励模型无法在 LLM 训练中学习改进。因此团队研究了自我奖励语言模型，其中语言模型本身通过 LLM-as-a-Judge 提示在训练期间提供自己的奖励。结果表明，在迭代 DPO 训练过程中，它们不仅指令遵循能力得到了提高，而且对自身提供高质量奖励的能力也得到了提高。