共计 835 个字符,预计需要花费 3 分钟才能阅读完成。
微软推出一种名为 SliceGPT 的新型后训练稀疏化方案,这是一种新的用于压缩大型语言模型的方法。该方法通过删除权重矩阵中的行和列来减小模型大小,从而降低计算和内存需求。具体来说,SliceGPT 首先对每个权重矩阵应用正交变换,然后删除变换后的矩阵中的部分列或行。
特点:
- 计算不变性 :提出了一种计算不变性,允许在不改变模型输出的情况下对每个权重矩阵应用正交变换。
- 结构化稀疏性 :通过 PCA 计算,将信号矩阵投影到其主成分上,然后删除变换后的权重矩阵的行或列,实现结构化稀疏性。
- 无需额外代码优化 :SliceGPT 的切片模型在没有额外代码优化的情况下运行更快,需要的 GPU 数量更少。
实现方法:
- 正交变换 :在 RMSNorm 连接的 Transformer 网络中,应用正交矩阵变换,使得网络保持不变。
- PCA 计算 :在每个网络层中,使用 PCA 计算来确定如何投影信号矩阵,以便在不影响模型性能的情况下删除权重矩阵的行和列。
- 稀疏化 :通过删除权重矩阵的行和列,以及相应的输入和输出信号矩阵的列,实现模型的稀疏化。
具体应用场景:
- 模型部署 :在资源受限的环境中部署大型预训练模型时,SliceGPT 可以帮助减少所需的计算资源和内存。
- 能源效率 :在数据中心或云计算环境中,使用 SliceGPT 可以提高能源效率,因为模型运行所需的 GPU 数量减少。
- 移动和边缘计算 :在移动设备或边缘计算设备上,SliceGPT 可以使得大型语言模型更加实用,因为这些设备通常具有有限的计算能力和内存。
实验结果显示,在保持与原始密集模型相当的零样本任务性能的同时,SliceGPT 可以减小模型大小的 25% 以上。此外,SliceGPT 可以在不进行额外的代码优化或微调的情况下,在少量的 GPU 上运行,从而实现了计算效率的大幅度提升。总的来说,SliceGPT 为大型语言模型的压缩提供了一种有效的方法,能够在保持模型性能的同时显著减少计算和内存需求,适用于多种应用场景。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-29