新的预训练框架：互注意力掩码自动编码器（CrossMAE）

52次阅读

共计 865 个字符，预计需要花费 3 分钟才能阅读完成。

加州大学伯克利分校和旧金山分校提出了一个新的预训练框架：互注意力掩码自动编码器（Cross-Attention Masked Autoencoders，CrossMAE）。在 CrossMAE 中，解码器利用可见标记和掩码标记之间的互注意力进行重构，而不依赖于自注意力。这使得 CrossMAE 能够仅重构图像中的小部分掩码补丁，从而提高效率。此外，每个解码器块现在可以利用不同的编码器特征，从而改善表示学习。实验结果显示，CrossMAE 在性能上与 MAE 相当，但在计算量上比 MAE 少了 2.5 到 3.7 倍。它在 ImageNet 分类和 COCO 实例分割任务上也超越了 MAE。在论文里还探讨了在 掩码自动编码器（Masked Autoencoders，MAE）中重思考补丁之间的依赖关系。作者将 MAE 的解码机制分解为自注意力和互注意力。研究发现，MAE 中的自注意力机制对于学习良好的表示并不是必需的。