微软推出新型后训练稀疏化方案SliceGPT

14次阅读
没有评论

共计 835 个字符,预计需要花费 3 分钟才能阅读完成。

微软推出一种名为 SliceGPT 的新型后训练稀疏化方案,这是一种新的用于压缩大型语言模型的方法。该方法通过删除权重矩阵中的行和列来减小模型大小,从而降低计算和内存需求。具体来说,SliceGPT 首先对每个权重矩阵应用正交变换,然后删除变换后的矩阵中的部分列或行。

论文地址:https://arxiv.org/abs/2401.15024

特点:

  • 计算不变性 :提出了一种计算不变性,允许在不改变模型输出的情况下对每个权重矩阵应用正交变换。
  • 结构化稀疏性 :通过 PCA 计算,将信号矩阵投影到其主成分上,然后删除变换后的权重矩阵的行或列,实现结构化稀疏性。
  • 无需额外代码优化 :SliceGPT 的切片模型在没有额外代码优化的情况下运行更快,需要的 GPU 数量更少。

实现方法:

  1. 正交变换 :在 RMSNorm 连接的 Transformer 网络中,应用正交矩阵变换,使得网络保持不变。
  2. PCA 计算 :在每个网络层中,使用 PCA 计算来确定如何投影信号矩阵,以便在不影响模型性能的情况下删除权重矩阵的行和列。
  3. 稀疏化 :通过删除权重矩阵的行和列,以及相应的输入和输出信号矩阵的列,实现模型的稀疏化。

具体应用场景:

  • 模型部署 :在资源受限的环境中部署大型预训练模型时,SliceGPT 可以帮助减少所需的计算资源和内存。
  • 能源效率 :在数据中心或云计算环境中,使用 SliceGPT 可以提高能源效率,因为模型运行所需的 GPU 数量减少。
  • 移动和边缘计算 :在移动设备或边缘计算设备上,SliceGPT 可以使得大型语言模型更加实用,因为这些设备通常具有有限的计算能力和内存。

实验结果显示,在保持与原始密集模型相当的零样本任务性能的同时,SliceGPT 可以减小模型大小的 25% 以上。此外,SliceGPT 可以在不进行额外的代码优化或微调的情况下,在少量的 GPU 上运行,从而实现了计算效率的大幅度提升。总的来说,SliceGPT 为大型语言模型的压缩提供了一种有效的方法,能够在保持模型性能的同时显著减少计算和内存需求,适用于多种应用场景。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-29发表,共计835字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码