腾讯开源大型MoE模型Hunyuan-Large：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

浏览：187次阅读

共计 1378 个字符，预计需要花费 4 分钟才能阅读完成。

文章目录[隐藏]

Hunyuan-Large：腾讯的重要贡献
技术进步与创新
性能与应用

大语言模型（LLMs）已成为许多 AI 系统的核心，显著推动了自然语言处理（NLP）、计算机视觉甚至科学研究的进步。然而，这些模型也带来了自身的挑战。随着对更好 AI 能力的需求增加，对更复杂和更大模型的需求也随之增加。LLMs 的规模和计算需求使得训练和推理成本高昂，促使研究人员探索更高效的架构。一种受欢迎的解决方案是专家混合（MoE）模型，通过选择性激活专业组件来提高性能。尽管有潜力，但很少有大规模的 MoE 模型被开源供社区使用，限制了创新和实际应用。

Hunyuan-Large：腾讯的重要贡献

腾讯通过发布 Hunyuan-Large 迈出了重要一步，这是目前行业中最大的基于 Transformer 的 MoE 开源模型。Hunyuan-Large 总共有 3890 亿参数，其中 520 亿是活跃的，设计用于处理长达 256K 个 token 的极大上下文。该模型结合了前所未有的尖端技术来应对 NLP 和通用 AI 任务，在某些情况下，其性能超越了其他领先模型，如 LLama3.1-70B 和 LLama3.1-405B。

项目主页：https://llm.hunyuan.tencent.com
GitHub：https://github.com/Tencent/Tencent-Hunyuan-Large
模型：https://huggingface.co/tencent/Tencent-Hunyuan-Large
API 地址：https://cloud.tencent.com/product/hunyuan
Demo：https://huggingface.co/spaces/tencent/Hunyuan-Large

腾讯在 Hugging Face 开源了 Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8, 并发布了技术报告和训练推理操作手册，详细介绍了模型能力和训练与推理的操作。

技术进步与创新

Hunyuan-Large 通过多种技术进步实现了其令人印象深刻的性能：

大规模预训练：
- 数据量：该模型在七万亿个 token 上进行了预训练，其中包括 1.5 万亿个合成数据 token。
- 数据多样性：这些数据涵盖了数学、编码和多语言等多样化领域，使模型能够有效泛化，超越其他同等规模的模型。
混合专家路由策略：
- 选择性激活：通过选择性激活专业组件，提高了模型的效率和性能。
- 专家特定学习率：允许不同模型组件更优化地训练，平衡共享专家和专业专家之间的负载。
KV 缓存压缩：
- 内存优化：减少了推理期间的内存开销，使得在保持高质量响应的同时高效扩展模型成为可能。

性能与应用

Hunyuan-Large 的发布具有重要意义。它不仅提供了与真正大规模 MoE 模型合作的机会，还附带了开源代码库和预训练检查点，便于进一步研究和开发。基准测试显示，Hunyuan-Large 在关键 NLP 任务（如问答、逻辑推理、编码和阅读理解）上优于现有模型。例如，它在 MMLU 基准测试中以 88.4 分超越了 LLama3.1-405B 模型的 85.2 分。这一成就突显了 Hunyuan-Large 训练和架构的效率，尽管其活跃参数较少。

通过在需要长上下文理解的任务中表现出色，Hunyuan-Large 还解决了当前 LLM 能力中的一个关键差距，使其特别适用于需要处理扩展文本序列的应用。

腾讯开源大型MoE模型Hunyuan-Large：389B 总参数，业界已开源基于 Transformer 的最大 MoE 模型

Hunyuan-Large：腾讯的重要贡献

技术进步与创新

性能与应用

相关文章

相关文章

相关文章