AI PC装机指南

Tülu 3：艾伦AI研究所发布最先进的指令遵循模型，百分百开源

2024年11月23日

/

文章目录[隐藏]

关键特点
- 模型家族
- 模型尺寸
训练技术
性能指标
开放性和可访问性
先进的训练技术
创新的聊天模板
超越聊天的应用
局限性和挑战

艾伦人工智能研究所（AI2）宣布发布Tülu 3，这是一系列最先进的指令遵循模型，旨在为AI能力设定新的基准。此次发布包括最先进的功能、方法和工具，为研究人员和开发者提供了一个全面的、开源的解决方案。通过Tülu 3，AI2成功解决了从对话AI到数学、推理和评估等复杂问题解决领域的广泛任务。

项目主页：https://allenai.org/tulu
模型：https://huggingface.co/collections/allenai/tulu-3-models-673b8e0dc3512e30e7dc54f5

关键特点

模型家族

Tülu 3是一个优先考虑透明性、开放性和最先进性能的模型家族。这些模型基于Meta的Llama 3.1框架，并在一个包含公开可用、合成和人类创建数据的广泛数据集上进行了微调。这种方法确保了Tülu 3在包括数学、GSM8K和IFEval等专业领域以及通用聊天和推理任务在内的多样化任务中表现出色。

模型尺寸

Tülu 3家族包括两个主要模型尺寸：

Tülu 3 8B（Llama-3.1-Tulu-3-8B）
Tülu 3 70B（Llama-3.1-Tulu-3-70B）

训练技术

这些模型使用了先进的训练技术，包括：

顺序微调（SFT）：逐步优化模型以适应特定任务。
直接偏好优化（DPO）：通过直接优化模型以匹配人类偏好来提高性能。
价值正则化强化学习（RLVR）：结合强化学习和价值正则化，以提高响应质量和稳定性。

性能指标

Tülu 3模型在多个基准评估中展示了显著的性能：

MMLU（0-shot思维链）：在多任务多语言理解任务中表现出色。
GSM8K（8-shot思维链）：8B模型得分87.6，70B模型得分93.5。
HumanEval：70B模型达到92.4%的pass@10率。
安全任务：8B和70B模型分别得分85.5和88.3，展示了处理敏感和复杂查询的可靠性。

开放性和可访问性

Tülu 3真正与众不同之处在于其对开放性的承诺。AI2已经将模型、训练数据集、评估代码和方法完全开源。研究人员和开发者可以访问以下资源：

训练仓库：包含训练代码和数据集。
评估仓库：包含评估代码和基准测试结果。
技术报告：详细介绍了模型的架构和能力。
Playground平台：提供了一个互动演示，让用户亲自探索模型的性能和应用。

先进的训练技术

Tülu 3模型的训练结合了先进的后训练技术，以最大化性能：

RLVR方法：引入了强化学习概念，以提高响应质量同时保持价值正则化。
关键超参数：学习率为3*10^(-7)，gamma为1.0，KL惩罚系数范围为[0.1, 0.05, 0.03, 0.01]。
支持的最大token长度：标准支持2048个token，数学任务扩展至4096个token。

创新的聊天模板

Tülu 3采用了创新的聊天模板，以简化对话AI交互：

用户和助手角色：模板嵌入了用户和助手角色，确保无缝和连贯的交流。
默认系统提示：指导模型在聊天会话中的行为，例如“您是Tülu 3，一个由艾伦人工智能研究所构建的有帮助且无害的AI助手”。

超越聊天的应用

尽管Tülu 3在对话任务中表现出色，但其能力不仅限于简单的对话。模型在复杂的推理基准测试中也表现出色：

数学任务：70B模型得分63.0。
BigBenchHard任务：70B模型得分82.0。
内容生成、总结和编码：在HumanEval和HumanEval+任务中，70B模型分别达到了92.4和88.0的pass@10分数。

局限性和挑战

尽管Tülu 3具有显著的能力，但它并非没有局限性：

安全训练：模型在安全训练方面有限，并且不具备一些专有模型中的循环过滤机制。
训练数据集：确切组成仍未公开，引发了对其潜在偏见的担忧。

相关文章