微软推出新型后训练稀疏化方案SliceGPT

59次阅读

共计 835 个字符，预计需要花费 3 分钟才能阅读完成。

微软推出一种名为 SliceGPT 的新型后训练稀疏化方案，这是一种新的用于压缩大型语言模型的方法。该方法通过删除权重矩阵中的行和列来减小模型大小，从而降低计算和内存需求。具体来说，SliceGPT 首先对每个权重矩阵应用正交变换，然后删除变换后的矩阵中的部分列或行。

论文地址：https://arxiv.org/abs/2401.15024

特点：

计算不变性 ：提出了一种计算不变性，允许在不改变模型输出的情况下对每个权重矩阵应用正交变换。
结构化稀疏性 ：通过 PCA 计算，将信号矩阵投影到其主成分上，然后删除变换后的权重矩阵的行或列，实现结构化稀疏性。
无需额外代码优化 ：SliceGPT 的切片模型在没有额外代码优化的情况下运行更快，需要的 GPU 数量更少。

实现方法：

正交变换 ：在 RMSNorm 连接的 Transformer 网络中，应用正交矩阵变换，使得网络保持不变。
PCA 计算 ：在每个网络层中，使用 PCA 计算来确定如何投影信号矩阵，以便在不影响模型性能的情况下删除权重矩阵的行和列。
稀疏化 ：通过删除权重矩阵的行和列，以及相应的输入和输出信号矩阵的列，实现模型的稀疏化。

具体应用场景：

模型部署 ：在资源受限的环境中部署大型预训练模型时，SliceGPT 可以帮助减少所需的计算资源和内存。
能源效率 ：在数据中心或云计算环境中，使用 SliceGPT 可以提高能源效率，因为模型运行所需的 GPU 数量减少。
移动和边缘计算 ：在移动设备或边缘计算设备上，SliceGPT 可以使得大型语言模型更加实用，因为这些设备通常具有有限的计算能力和内存。

实验结果显示，在保持与原始密集模型相当的零样本任务性能的同时，SliceGPT 可以减小模型大小的 25% 以上。此外，SliceGPT 可以在不进行额外的代码优化或微调的情况下，在少量的 GPU 上运行，从而实现了计算效率的大幅度提升。总的来说，SliceGPT 为大型语言模型的压缩提供了一种有效的方法，能够在保持模型性能的同时显著减少计算和内存需求，适用于多种应用场景。

正文完

关注公众号获取最新教程