Tülu 3:艾伦AI研究所发布最先进的指令遵循模型,百分百开源

浏览:246次阅读
没有评论

共计 1522 个字符,预计需要花费 4 分钟才能阅读完成。

艾伦人工智能研究所(AI2)宣布发布 Tülu 3,这是一系列最先进的指令遵循模型,旨在为 AI 能力设定新的基准。此次发布包括最先进的功能、方法和工具,为研究人员和开发者提供了一个全面的、开源的解决方案。通过 Tülu 3,AI2 成功解决了从对话 AI 到数学、推理和评估等复杂问题解决领域的广泛任务。

关键特点

模型家族

Tülu 3 是一个优先考虑透明性、开放性和最先进性能的模型家族。这些模型基于 Meta 的 Llama 3.1 框架,并在一个包含公开可用、合成和人类创建数据的广泛数据集上进行了微调。这种方法确保了 Tülu 3 在包括数学、GSM8K 和 IFEval 等专业领域以及通用聊天和推理任务在内的多样化任务中表现出色。

模型尺寸

Tülu 3 家族包括两个主要模型尺寸:

  • Tülu 3 8B(Llama-3.1-Tulu-3-8B)
  • Tülu 3 70B(Llama-3.1-Tulu-3-70B)

训练技术

这些模型使用了先进的训练技术,包括:

  • 顺序微调(SFT):逐步优化模型以适应特定任务。
  • 直接偏好优化(DPO):通过直接优化模型以匹配人类偏好来提高性能。
  • 价值正则化强化学习(RLVR):结合强化学习和价值正则化,以提高响应质量和稳定性。

性能指标

Tülu 3 模型在多个基准评估中展示了显著的性能:

  • MMLU(0-shot 思维链):在多任务多语言理解任务中表现出色。
  • GSM8K(8-shot 思维链):8B 模型得分 87.6,70B 模型得分 93.5。
  • HumanEval:70B 模型达到 92.4% 的 pass@10 率。
  • 安全任务:8B 和 70B 模型分别得分 85.5 和 88.3,展示了处理敏感和复杂查询的可靠性。

开放性和可访问性

Tülu 3 真正与众不同之处在于其对开放性的承诺。AI2 已经将模型、训练数据集、评估代码和方法完全开源。研究人员和开发者可以访问以下资源:

  • 训练仓库:包含训练代码和数据集。
  • 评估仓库:包含评估代码和基准测试结果。
  • 技术报告:详细介绍了模型的架构和能力。
  • Playground 平台:提供了一个互动演示,让用户亲自探索模型的性能和应用。

先进的训练技术

Tülu 3 模型的训练结合了先进的后训练技术,以最大化性能:

  • RLVR 方法:引入了强化学习概念,以提高响应质量同时保持价值正则化。
  • 关键超参数:学习率为 3 *10^(-7),gamma 为 1.0,KL 惩罚系数范围为[0.1, 0.05, 0.03, 0.01]。
  • 支持的最大 token 长度:标准支持 2048 个 token,数学任务扩展至 4096 个 token。

创新的聊天模板

Tülu 3 采用了创新的聊天模板,以简化对话 AI 交互:

  • 用户和助手角色:模板嵌入了用户和助手角色,确保无缝和连贯的交流。
  • 默认系统提示:指导模型在聊天会话中的行为,例如“您是 Tülu 3,一个由艾伦人工智能研究所构建的有帮助且无害的 AI 助手”。

超越聊天的应用

尽管 Tülu 3 在对话任务中表现出色,但其能力不仅限于简单的对话。模型在复杂的推理基准测试中也表现出色:

  • 数学任务:70B 模型得分 63.0。
  • BigBenchHard 任务:70B 模型得分 82.0。
  • 内容生成、总结和编码:在 HumanEval 和 HumanEval+ 任务中,70B 模型分别达到了 92.4 和 88.0 的 pass@10 分数。

局限性和挑战

尽管 Tülu 3 具有显著的能力,但它并非没有局限性:

  • 安全训练:模型在安全训练方面有限,并且不具备一些专有模型中的循环过滤机制。
  • 训练数据集:确切组成仍未公开,引发了对其潜在偏见的担忧。
正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-11-23发表,共计1522字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。