中科院与华为推出视觉模型VMamba

49次阅读

共计 427 个字符，预计需要花费 2 分钟才能阅读完成。

1 月 18 日，来自中国科学院、华为、鹏城实验室的研究人员推出一个新的视觉模型 VMamba（Visual State Space Model，视觉状态空间模型）。CNN（卷积神经网络）和 ViTs（视觉 Transformer）是视觉领域当下最主流的两种基础模型，但这两种模型的计算复杂度都较高。通过对全局接受域和动态权重的结合，ViTs 实现了卓越的视觉建模性能。这一观察结果促使团队提出一种新的架构 VMamba，该架构继承了这些组件，同时提高了计算效率。大量的实验结果证实，VMamba 不仅在各种视觉感知任务中表现出提升，而且随着图像分辨率的增加，它比现有基准显示出更明显的优势。VMamba- S 在 ImageNet-1K 上达到 83.5% 的正确率，比 Vim- S 高 3.2%，比 Swin- S 高 0.5%。