共计 1522 个字符,预计需要花费 4 分钟才能阅读完成。
艾伦人工智能研究所(AI2)宣布发布 Tülu 3,这是一系列最先进的指令遵循模型,旨在为 AI 能力设定新的基准。此次发布包括最先进的功能、方法和工具,为研究人员和开发者提供了一个全面的、开源的解决方案。通过 Tülu 3,AI2 成功解决了从对话 AI 到数学、推理和评估等复杂问题解决领域的广泛任务。
- 项目主页:https://allenai.org/tulu
- 模型:https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5
关键特点
模型家族
Tülu 3 是一个优先考虑透明性、开放性和最先进性能的模型家族。这些模型基于 Meta 的 Llama 3.1 框架,并在一个包含公开可用、合成和人类创建数据的广泛数据集上进行了微调。这种方法确保了 Tülu 3 在包括数学、GSM8K 和 IFEval 等专业领域以及通用聊天和推理任务在内的多样化任务中表现出色。
模型尺寸
Tülu 3 家族包括两个主要模型尺寸:
- Tülu 3 8B(Llama-3.1-Tulu-3-8B)
- Tülu 3 70B(Llama-3.1-Tulu-3-70B)
训练技术
这些模型使用了先进的训练技术,包括:
- 顺序微调(SFT):逐步优化模型以适应特定任务。
- 直接偏好优化(DPO):通过直接优化模型以匹配人类偏好来提高性能。
- 价值正则化强化学习(RLVR):结合强化学习和价值正则化,以提高响应质量和稳定性。
性能指标
Tülu 3 模型在多个基准评估中展示了显著的性能:
- MMLU(0-shot 思维链):在多任务多语言理解任务中表现出色。
- GSM8K(8-shot 思维链):8B 模型得分 87.6,70B 模型得分 93.5。
- HumanEval:70B 模型达到 92.4% 的 pass@10 率。
- 安全任务:8B 和 70B 模型分别得分 85.5 和 88.3,展示了处理敏感和复杂查询的可靠性。
开放性和可访问性
Tülu 3 真正与众不同之处在于其对开放性的承诺。AI2 已经将模型、训练数据集、评估代码和方法完全开源。研究人员和开发者可以访问以下资源:
- 训练仓库:包含训练代码和数据集。
- 评估仓库:包含评估代码和基准测试结果。
- 技术报告:详细介绍了模型的架构和能力。
- Playground 平台:提供了一个互动演示,让用户亲自探索模型的性能和应用。
先进的训练技术
Tülu 3 模型的训练结合了先进的后训练技术,以最大化性能:
- RLVR 方法:引入了强化学习概念,以提高响应质量同时保持价值正则化。
- 关键超参数:学习率为 3 *10^(-7),gamma 为 1.0,KL 惩罚系数范围为[0.1, 0.05, 0.03, 0.01]。
- 支持的最大 token 长度:标准支持 2048 个 token,数学任务扩展至 4096 个 token。
创新的聊天模板
Tülu 3 采用了创新的聊天模板,以简化对话 AI 交互:
- 用户和助手角色:模板嵌入了用户和助手角色,确保无缝和连贯的交流。
- 默认系统提示:指导模型在聊天会话中的行为,例如“您是 Tülu 3,一个由艾伦人工智能研究所构建的有帮助且无害的 AI 助手”。
超越聊天的应用
尽管 Tülu 3 在对话任务中表现出色,但其能力不仅限于简单的对话。模型在复杂的推理基准测试中也表现出色:
- 数学任务:70B 模型得分 63.0。
- BigBenchHard 任务:70B 模型得分 82.0。
- 内容生成、总结和编码:在 HumanEval 和 HumanEval+ 任务中,70B 模型分别达到了 92.4 和 88.0 的 pass@10 分数。
局限性和挑战
尽管 Tülu 3 具有显著的能力,但它并非没有局限性:
- 安全训练:模型在安全训练方面有限,并且不具备一些专有模型中的循环过滤机制。
- 训练数据集:确切组成仍未公开,引发了对其潜在偏见的担忧。
相关文章
相关文章
正文完
关注公众号获取最新教程
