新框架EAGLE:用于加速大型语言模型(LLMs)的推断过程

54次阅读
没有评论

共计 639 个字符,预计需要花费 2 分钟才能阅读完成。

EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) 是一种新的基线方法,用于快速解码大型语言模型 (LLMs),同时保证性能的稳定。这种方法涉及对 LLM 的次顶层上下文特征向量进行外推,从而显著提高生成效率。

GitHub 地址:https://github.com/SafeAILab/EAGLE

  • EAGLE 框架 :EAGLE 通过在特征层面(second-top-layer)进行自回归操作,而不是直接预测令牌(tokens),来加速 LLMs 的推理过程。它通过整合来自前一时间步的令牌序列来解决特征层面预测的不确定性问题。
  • 加速效果 :EAGLE 在 MT-bench 基准测试中,与标准自回归解码相比,实现了 3 倍的加速效果,比 Lookahead 快 2 倍,比 Medusa 快 1.6 倍。在某些情况下,EAGLE 的平均令牌生成速度达到了 160 tokens/s。

EAGLE 具有以下特点:

  • 在 gpt-fast 上实现了 2 倍的加速,这是已知最快的开源推理之一。
  • 比普通解码(13B)快 3 倍。
  • 比 Lookahead(13B)快 2 倍。
  • 比 Medusa(13B)快 1.6 倍。
  • 在生成文本的分布上,可证明与普通解码保持一致性。
  • 可训练(在 1 - 2 天内),并且可以在 8 个 RTX 3090 GPU 上进行测试。即使是 GPU 资源较少的情况也可以负担得起。
  • 可以与其他并行技术结合使用,如 vLLM、DeepSpeed、Mamba、FlashAttention、量化以及硬件优化。

新框架 EAGLE:用于加速大型语言模型(LLMs)的推断过程

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-29发表,共计639字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码