采用了混合头架构！英伟达推出小规模语言模型Hymba

浏览：333次阅读

共计 1103 个字符，预计需要花费 3 分钟才能阅读完成。

英伟达推出一种新型的小规模语言模型——Hymba。Hymba 采用了混合头架构（Hybrid-head Architecture），这种架构结合了变换器（Transformer）的注意力机制和状态空间模型（State Space Models, SSMs），以提高效率。Hymba 的主要特点是在同一个层内集成了注意力头和 SSM 头，提供并行和互补的处理方式，同时引入了可学习的元令牌（meta tokens），这些元令牌被添加到输入序列的前面，存储关键信息，减轻了注意力机制的负担。

GitHub：https://github.com/NVlabs/hymba
模型：https://huggingface.co/collections/nvidia/hymba-673c35516c12c4b98b5e845f

例如，我们有一个问答系统，用户问：“法国的首都是什么？”Hymba 模型能够理解这个问题，并从其训练数据中提取出“巴黎”作为答案。由于 Hymba 的混合头架构和元令牌，它能够有效地处理和回忆相关信息，即使在面对大量数据时也能保持高效率和准确性。

主要功能和特点：

混合头架构：Hymba 结合了注意力头和 SSM 头，使得模型能够同时利用注意力机制的高分辨率回忆和 SSM 的高效上下文总结。
元令牌：引入可学习的元令牌，这些令牌作为输入序列的前缀，与所有后续令牌交互，存储关键信息，减轻了注意力机制的负担。
跨层键值共享：通过在连续层之间共享键值（KV）缓存，减少了内存使用和模型参数。
部分滑动窗口注意力：大多数层采用滑动窗口注意力，进一步降低了缓存成本。
高效性能：Hymba 在小规模语言模型中取得了最先进的结果，例如 Hymba-1.5B-Base 模型在性能上超过了所有小于 2B 的公共模型，甚至在平均准确率上超过了 Llama-3.2-3B。

工作原理：

Hymba 的工作原理基于混合头模块，该模块并行处理输入信息，使得不同的注意力和 SSM 头可以以不同的方式存储、检索和处理相同的信息。这种设计使得 Hymba 能够同时利用注意力机制的高分辨率回忆和 SSM 的高效上下文总结。此外，元令牌作为输入序列的前缀，参与所有后续令牌的注意力和 SSM 计算，类似于人脑中的元记忆，帮助识别在其他记忆中定位所需信息的位置。

具体应用场景：

常识推理任务：Hymba 在常识推理任务中表现出色，能够理解和推理关于世界的基本知识。
问答系统：Hymba 可以用于构建问答系统，通过理解问题并从给定的文本中提取答案。
文本摘要和生成：Hymba 可以用于生成文本摘要或根据给定的指令生成新的文本内容。
指令遵循：Hymba 还可以用于需要遵循复杂指令的场景，如编程语言的理解和执行。

采用了混合头架构！英伟达推出小规模语言模型Hymba

相关文章