中科院与华为推出视觉模型VMamba

49次阅读
没有评论

共计 427 个字符,预计需要花费 2 分钟才能阅读完成。

1 月 18 日,来自中国科学院、华为、鹏城实验室的研究人员推出一个新的视觉模型 VMamba(Visual State Space Model,视觉状态空间模型)。CNN(卷积神经网络)和 ViTs(视觉 Transformer)是视觉领域当下最主流的两种基础模型,但这两种模型的计算复杂度都较高。通过对全局接受域和动态权重的结合,ViTs 实现了卓越的视觉建模性能。这一观察结果促使团队提出一种新的架构 VMamba,该架构继承了这些组件,同时提高了计算效率。大量的实验结果证实,VMamba 不仅在各种视觉感知任务中表现出提升,而且随着图像分辨率的增加,它比现有基准显示出更明显的优势。VMamba- S 在 ImageNet-1K 上达到 83.5% 的正确率,比 Vim- S 高 3.2%,比 Swin- S 高 0.5%。

论文地址:https://arxiv.org/pdf/2401.10166.pdf

GitHub 地址:https://github.com/MzeroMiko/VMamba

中科院与华为推出视觉模型 VMamba

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-23发表,共计427字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码