通用图像和视频分割模型OMG-Seg

44次阅读

共计 1137 个字符，预计需要花费 3 分钟才能阅读完成。

南洋理工大学 S -Lab 和上海人工智能实验室提出了一种名为 OMG-Seg 的通用图像和视频分割模型。该模型的特点是采用一个统一的编码器 - 解码器架构，可以支持包括图像语义分割、实例分割、全景分割、视频语义分割、视频实例分割、视频对象分割、开放词汇分割、交互式分割等在内的多种分割任务。OMG-Seg 的目标是提供一个通用的、高效的框架，能够在单一模型中实现对这些任务的有效处理，同时显著减少计算和参数开销。

项目主页：https://lxtgh.github.io/project/omg_seg
GitHub 地址：https://github.com/lxtGH/OMG-Seg
Demo 地址：https://huggingface.co/spaces/LXT/OMG_Seg

模型特点：

统一的查询表示 ：OMG-Seg 将所有任务的输出统一为一个查询表示，这使得模型能够处理多种类型的查询，如掩模标签、图像或视频掩模、唯一 ID 和视觉提示。
共享的编码器 - 解码器架构 ：模型采用共享的编码器 - 解码器架构，其中编码器提取图像或视频的特征，而解码器则处理这些特征并生成分割结果。
跨任务训练 ：OMG-Seg 通过在多个数据集上联合训练，实现了对不同任务的泛化能力，这有助于模型在各种分割任务上的表现。
开放词汇分割 ：模型利用冻结的视觉语言模型（VLM）作为特征提取器和分类器，实现了开放词汇分割，即能够识别和分割训练集中未出现过的新类别。

实现方法：

模型架构 ：OMG-Seg 遵循 Mask2Former 的设计，包含一个骨干网络（CLIP 视觉编码器）、一个像素解码器和一个掩模解码器。骨干网络使用冻结的 CLIP 视觉模型，而像素解码器则包含多阶段的可变形注意力层。
对象查询 ：模型使用对象查询来表示不同的掩模输出。对于图像和视频输入，对象查询代表图像掩模或跟踪的管状掩模（tube masks）。对于交互式分割，对象查询被强制定位到特定的区域。
共享多任务解码器 ：解码器的主要操作是交叉注意力，它接收组合的对象查询和图像 / 视频特征，输出精炼的对象查询。这些查询与高分辨率特征进行点积，以获得最终的掩模。
训练和推理 ：在训练过程中，OMG-Seg 采用匈牙利匹配（Hungarian matching）来分配对象查询到视频 / 图像实体，并监督它们的预测掩模和分类。在推理过程中，OMG-Seg 遵循 Mask2Former 的程序，对于视频分割任务，它采用简单的查询匹配而不是引入额外的跟踪组件。

OMG-Seg 在多个数据集上进行了严格的评估，包括 COCO、ADE-20k、VIPSeg、Youtube-VIS-2019 等，展示了其在图像、视频、开放词汇和交互式分割设置上的竞争力。论文还提供了代码和模型，以便研究者可以复现和进一步研究。

正文完

关注公众号获取最新教程