新框架EAGLE：用于加速大型语言模型（LLMs）的推断过程

54次阅读

共计 639 个字符，预计需要花费 2 分钟才能阅读完成。

EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) 是一种新的基线方法，用于快速解码大型语言模型 (LLMs)，同时保证性能的稳定。这种方法涉及对 LLM 的次顶层上下文特征向量进行外推，从而显著提高生成效率。

GitHub 地址：https://github.com/SafeAILab/EAGLE

EAGLE 框架 ：EAGLE 通过在特征层面（second-top-layer）进行自回归操作，而不是直接预测令牌（tokens），来加速 LLMs 的推理过程。它通过整合来自前一时间步的令牌序列来解决特征层面预测的不确定性问题。
加速效果 ：EAGLE 在 MT-bench 基准测试中，与标准自回归解码相比，实现了 3 倍的加速效果，比 Lookahead 快 2 倍，比 Medusa 快 1.6 倍。在某些情况下，EAGLE 的平均令牌生成速度达到了 160 tokens/s。

EAGLE 具有以下特点：