共计 427 个字符,预计需要花费 2 分钟才能阅读完成。
1 月 18 日,来自中国科学院、华为、鹏城实验室的研究人员推出一个新的视觉模型 VMamba(Visual State Space Model,视觉状态空间模型)。CNN(卷积神经网络)和 ViTs(视觉 Transformer)是视觉领域当下最主流的两种基础模型,但这两种模型的计算复杂度都较高。通过对全局接受域和动态权重的结合,ViTs 实现了卓越的视觉建模性能。这一观察结果促使团队提出一种新的架构 VMamba,该架构继承了这些组件,同时提高了计算效率。大量的实验结果证实,VMamba 不仅在各种视觉感知任务中表现出提升,而且随着图像分辨率的增加,它比现有基准显示出更明显的优势。VMamba- S 在 ImageNet-1K 上达到 83.5% 的正确率,比 Vim- S 高 3.2%,比 Swin- S 高 0.5%。
论文地址:https://arxiv.org/pdf/2401.10166.pdf
GitHub 地址:https://github.com/MzeroMiko/VMamba
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-23