腾讯开源大型MoE模型Hunyuan-Large:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

浏览:187次阅读
没有评论

共计 1378 个字符,预计需要花费 4 分钟才能阅读完成。

大语言模型(LLMs)已成为许多 AI 系统的核心,显著推动了自然语言处理(NLP)、计算机视觉甚至科学研究的进步。然而,这些模型也带来了自身的挑战。随着对更好 AI 能力的需求增加,对更复杂和更大模型的需求也随之增加。LLMs 的规模和计算需求使得训练和推理成本高昂,促使研究人员探索更高效的架构。一种受欢迎的解决方案是专家混合(MoE)模型,通过选择性激活专业组件来提高性能。尽管有潜力,但很少有大规模的 MoE 模型被开源供社区使用,限制了创新和实际应用。

Hunyuan-Large:腾讯的重要贡献

腾讯通过发布 Hunyuan-Large 迈出了重要一步,这是目前行业中最大的基于 Transformer 的 MoE 开源模型。Hunyuan-Large 总共有 3890 亿参数,其中 520 亿是活跃的,设计用于处理长达 256K 个 token 的极大上下文。该模型结合了前所未有的尖端技术来应对 NLP 和通用 AI 任务,在某些情况下,其性能超越了其他领先模型,如 LLama3.1-70B 和 LLama3.1-405B。

腾讯在 Hugging Face 开源了 Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct 和 Hunyuan-A52B-Instruct-FP8, 并发布了技术报告和训练推理操作手册,详细介绍了模型能力和训练与推理的操作。

腾讯开源大型 MoE 模型 Hunyuan-Large:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

技术进步与创新

Hunyuan-Large 通过多种技术进步实现了其令人印象深刻的性能:

  1. 大规模预训练
    • 数据量:该模型在七万亿个 token 上进行了预训练,其中包括 1.5 万亿个合成数据 token。
    • 数据多样性:这些数据涵盖了数学、编码和多语言等多样化领域,使模型能够有效泛化,超越其他同等规模的模型。
  2. 混合专家路由策略
    • 选择性激活:通过选择性激活专业组件,提高了模型的效率和性能。
    • 专家特定学习率:允许不同模型组件更优化地训练,平衡共享专家和专业专家之间的负载。
  3. KV 缓存压缩
    • 内存优化:减少了推理期间的内存开销,使得在保持高质量响应的同时高效扩展模型成为可能。
腾讯开源大型 MoE 模型 Hunyuan-Large:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

性能与应用

Hunyuan-Large 的发布具有重要意义。它不仅提供了与真正大规模 MoE 模型合作的机会,还附带了开源代码库和预训练检查点,便于进一步研究和开发。基准测试显示,Hunyuan-Large 在关键 NLP 任务(如问答、逻辑推理、编码和阅读理解)上优于现有模型。例如,它在 MMLU 基准测试中以 88.4 分超越了 LLama3.1-405B 模型的 85.2 分。这一成就突显了 Hunyuan-Large 训练和架构的效率,尽管其活跃参数较少。

腾讯开源大型 MoE 模型 Hunyuan-Large:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型

通过在需要长上下文理解的任务中表现出色,Hunyuan-Large 还解决了当前 LLM 能力中的一个关键差距,使其特别适用于需要处理扩展文本序列的应用。

腾讯开源大型 MoE 模型 Hunyuan-Large:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-11-06发表,共计1378字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。