共计 865 个字符,预计需要花费 3 分钟才能阅读完成。
加州大学伯克利分校和旧金山分校提出了一个新的预训练框架:互注意力掩码自动编码器(Cross-Attention Masked Autoencoders,CrossMAE)。在 CrossMAE 中,解码器利用可见标记和掩码标记之间的互注意力进行重构,而不依赖于自注意力。这使得 CrossMAE 能够仅重构图像中的小部分掩码补丁,从而提高效率。此外,每个解码器块现在可以利用不同的编码器特征,从而改善表示学习。实验结果显示,CrossMAE 在性能上与 MAE 相当,但在计算量上比 MAE 少了 2.5 到 3.7 倍。它在 ImageNet 分类和 COCO 实例分割任务上也超越了 MAE。在论文里还探讨了在 掩码自动编码器(Masked Autoencoders,MAE)中重思考补丁之间的依赖关系。作者将 MAE 的解码机制分解为自注意力和互注意力。研究发现,MAE 中的自注意力机制对于学习良好的表示并不是必需的。
项目主页:https://crossmae.github.io
GitHub 地址:https://github.com/TonyLianLong/CrossMAE
CrossMAE 相比 MAE 的主要创新点包括:
- 交叉注意力解码:使用交叉注意力而不是自注意力进行解码,这简化了解码流程,同时让不同位置的掩码 token 能够独立解码。
- 部分重构:只对部分掩码 token 进行重构,而不是重构所有 token,这提高了预训练效率。
- 块间注意力机制:引入块间注意力机制,让不同 decoder block 关注不同的 encoder 特征,提高了表示学习能力。
- 实验证明:实验证明交叉注意力解码并不影响表示质量,同时部分重构也能学习到良好的表示。
- 计算效率:CrossMAE 的计算效率比 MAE 更高,相同表示质量下,decoder 计算量更少。
- 性能提升:在 ImageNet 分类和 COCO 目标检测上,CrossMAE 优于同规模 MAE。
总体来说,CrossMAE 通过交叉注意力解码、部分重构和块间注意力机制等创新点,提高了 MAE 的效率,同时保持了表示质量,使得预训练视觉 transformer 更加高效。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-27