共计 1137 个字符,预计需要花费 3 分钟才能阅读完成。
南洋理工大学 S -Lab 和上海人工智能实验室提出了一种名为 OMG-Seg 的通用图像和视频分割模型。该模型的特点是采用一个统一的编码器 - 解码器架构,可以支持包括图像语义分割、实例分割、全景分割、视频语义分割、视频实例分割、视频对象分割、开放词汇分割、交互式分割等在内的多种分割任务。OMG-Seg 的目标是提供一个通用的、高效的框架,能够在单一模型中实现对这些任务的有效处理,同时显著减少计算和参数开销。
项目主页:https://lxtgh.github.io/project/omg_seg
GitHub 地址:https://github.com/lxtGH/OMG-Seg
模型特点:
- 统一的查询表示 :OMG-Seg 将所有任务的输出统一为一个查询表示,这使得模型能够处理多种类型的查询,如掩模标签、图像或视频掩模、唯一 ID 和视觉提示。
- 共享的编码器 - 解码器架构 :模型采用共享的编码器 - 解码器架构,其中编码器提取图像或视频的特征,而解码器则处理这些特征并生成分割结果。
- 跨任务训练 :OMG-Seg 通过在多个数据集上联合训练,实现了对不同任务的泛化能力,这有助于模型在各种分割任务上的表现。
- 开放词汇分割 :模型利用冻结的视觉语言模型(VLM)作为特征提取器和分类器,实现了开放词汇分割,即能够识别和分割训练集中未出现过的新类别。
实现方法:
- 模型架构 :OMG-Seg 遵循 Mask2Former 的设计,包含一个骨干网络(CLIP 视觉编码器)、一个像素解码器和一个掩模解码器。骨干网络使用冻结的 CLIP 视觉模型,而像素解码器则包含多阶段的可变形注意力层。
- 对象查询 :模型使用对象查询来表示不同的掩模输出。对于图像和视频输入,对象查询代表图像掩模或跟踪的管状掩模(tube masks)。对于交互式分割,对象查询被强制定位到特定的区域。
- 共享多任务解码器 :解码器的主要操作是交叉注意力,它接收组合的对象查询和图像 / 视频特征,输出精炼的对象查询。这些查询与高分辨率特征进行点积,以获得最终的掩模。
- 训练和推理 :在训练过程中,OMG-Seg 采用匈牙利匹配(Hungarian matching)来分配对象查询到视频 / 图像实体,并监督它们的预测掩模和分类。在推理过程中,OMG-Seg 遵循 Mask2Former 的程序,对于视频分割任务,它采用简单的查询匹配而不是引入额外的跟踪组件。
OMG-Seg 在多个数据集上进行了严格的评估,包括 COCO、ADE-20k、VIPSeg、Youtube-VIS-2019 等,展示了其在图像、视频、开放词汇和交互式分割设置上的竞争力。论文还提供了代码和模型,以便研究者可以复现和进一步研究。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-24