Multimodal Pathway（M2PT）：通过利用其他模态的无关数据来提高特定模态的Transformer模型的性能

56次阅读

共计 1191 个字符，预计需要花费 3 分钟才能阅读完成。

香港中文大学多媒体实验室与腾讯 AI 实验室提出了一种名为 Multimodal Pathway（M2PT）的框架，旨在通过利用其他模态的无关数据来提高特定模态的 Transformer 模型的性能。具体来说，给定一个目标模态 (例如图像识别) 和一个辅助模态(例如音频识别)，该方法会使用辅助模态的数据集来训练一个辅助 Transformer 模型。然后，它会构建一个连接目标模态和辅助模态模型的 ” 通路 ”，从而使目标模态的数据可以被两个模型处理，从而利用辅助模态的数据中包含的模态互补知识来提高目标模态的性能。

他们提出了一个称为 ” 跨模态重参数化 ” 的具体实现方法，可以高效地实现这个框架，而不会增加模型的推理成本。论文在图像、视频、点云和音频识别等任务上进行了实验，结果表明这种方法可以显著提高模型的性能，这表明了在 Transformer 中学习到的模态互补知识确实存在。

项目主页：https://ailab-cvc.github.io/M2PT
GitHub 地址：https://github.com/AILab-CVC/M2PT

特点：

跨模态学习： M2PT 能够在不同模态之间进行知识迁移，即使这些模态的数据样本之间没有直接的相关性。
无需额外训练成本： M2PT 通过 Cross-Modal Re-parameterization 方法实现，这种方法在训练过程中引入的额外成本很小，并且在推理阶段不增加任何成本。
一致性改进： 在图像、视频、点云和音频识别任务上，M2PT 显示出显著且一致的性能提升。
通用性： M2PT 框架适用于多种模态，包括图像、视频、点云和音频，展示了其通用性。

实现方法：

架构设计： M2PT 由三个模块组成：模态特定的分词器、模态不可知的 Transformer 块和模态特定的头。对于每种模态，模型首先将输入数据转换为序列（即令牌），然后通过 Transformer 块处理这些序列，并在最后通过头进行解码。
Cross-Modal Re-parameterization： 这是 M2PT 的关键实现部分，它允许目标模态的 Transformer 模型利用辅助模态模型的权重。具体来说，目标模型中的每个线性层（包括注意力块中的 Query/Key/Value/ 投影层和前馈网络块中的层）都与辅助模型中的对应层相连，通过可学习的缩放因子（Cross-Modal Scale）来调整辅助模型权重的影响。
训练和推理： 在训练阶段，M2PT 模型通过调整 Cross-Modal Scale 来学习如何结合目标模态和辅助模态的权重。训练完成后，模型的参数被合并，以便在推理阶段保持与常规模型相同的大小和计算成本。

总的来说，M2PT 通过在不同模态之间建立有效的连接路径，实现了跨模态的知识迁移，从而在多种视觉任务中取得了显著的性能提升。这种方法为处理数据规模有限的模态提供了一种新的视角，即利用其他模态的大规模数据来增强模型性能。

正文完

关注公众号获取最新教程