零样本非模态分割框架pix2gestalt

60次阅读

共计 1100 个字符，预计需要花费 3 分钟才能阅读完成。

哥伦比亚大学和丰田研究所团队提出了一个名为 pix2gestalt 的框架，用于 零样本（zero-shot）的非模态（amodal）分割，该框架通过合成方法学习估计部分可见物体的形状和外观。pix2gestalt 利用大规模扩散模型（如 Stable Diffusion）的表示能力，通过在合成数据集上进行微调，学习重建在挑战性的零样本情况下的完整物体，包括那些违反自然和物理先例的例子，如艺术作品。这种方法在多个视觉任务中表现出色，包括非模态分割、物体识别和 3D 重建。

项目主页：https://gestalt.cs.columbia.edu
GitHub 地址：https://github.com/cvlab-columbia/pix2gestalt

特点：

零样本学习： pix2gestalt 能够在没有特定训练的情况下，对部分可见的物体进行非模态分割，这表明了模型的泛化能力。
合成数据集： 使用合成数据集进行训练，这些数据集包含了被遮挡物体及其完整对应物的配对，这使得模型能够在没有真实遮挡数据的情况下学习。
扩散模型： 利用扩散模型的强大表示能力，pix2gestalt 能够生成高质量的图像，同时保持对遮挡物体的完整理解。
多任务适用性： 方法不仅适用于非模态分割，还可以显著提高现有物体识别和 3D 重建方法在遮挡存在时的性能。
多样性和不确定性处理： 通过从扩散过程中采样多次，pix2gestalt 能够生成多个与输入观察结果一致的合理完整物体，自然地处理遮挡的固有不确定性。

实现方法：

合成数据集构建： 使用自动对象检测和深度估计技术，从自然图像中选取完整物体，然后叠加遮挡物，构建出包含遮挡和完整物体对的训练数据集。
条件扩散模型： 在预训练的扩散模型基础上，通过微调学习条件扩散模型，该模型能够根据输入的遮挡图像和感兴趣区域生成完整物体的图像。
多流条件： 使用两个独立的流来条件化扩散模型：一个流通过交叉注意力机制利用输入图像的语义特征，另一个流通过变分自编码器（VAE）嵌入提供低级视觉细节。
任务应用： 一旦估计出完整物体的图像，pix2gestalt 可以直接用于执行图像分割、物体识别和 3D 重建等任务，通过合成完整物体来处理遮挡问题。
评估和改进： 在多个公开的非模态分割数据集上评估 pix2gestalt 的性能，并与现有方法进行比较，展示了其在零样本设置下的优势。此外，通过将 pix2gestalt 作为现有 3D 重建模型的插件，进一步提高了在遮挡情况下的重建质量。

pix2gestalt 通过结合大规模预训练的扩散模型和合成数据集，提供了一种强大的零样本非模态分割框架，能够在多种视觉任务中实现高质量的遮挡处理。

正文完

关注公众号获取最新教程