百度发布多模态条件扩散框架UNIMO-G

42次阅读

共计 864 个字符，预计需要花费 3 分钟才能阅读完成。

百度发布多模态条件扩散框架 UNIMO-G，它能够处理包含文本和视觉输入的多模态提示，展示了在文本驱动和主题驱动图像生成方面的统一能力。UNIMO- G 特别擅长从包含多个图像实体的复杂多模态提示中生成高保真度的图像。

项目主页：https://unimo-ptm.github.io
论文地址：https://huggingface.co/papers/2401.13388

模型特点：

实现方法：

文本到图像预训练 ：UNIMO- G 的预训练分为三个阶段，包括在小规模图像语料库上的基础训练，大规模中文文本 - 图像对数据集上的扩展训练，以及在高质量图像 - 文本对上的精细训练。
多模态指令调优 ：在预训练的基础上，通过多模态提示对模型进行进一步训练，以提高从多模态输入生成图像的能力。这包括生成描述实体的文本提示，使用 Grounding DINO 进行语言接地，以及使用 SAM 进行图像分割。
视觉增强学习 ：在多模态指令调优阶段，引入了视觉增强学习策略，通过交叉注意力机制增强生成对象和输入图像实体之间的视觉对齐。
评估：在 MS-COCO 和 DreamBench 数据集上评估 UNIMO- G 的性能，并通过人类评估验证其在文本驱动和主题驱动图像生成任务中的有效性。

UNIMO- G 在文本到图像生成和零样本主题驱动合成方面表现出色，尤其是在处理涉及多个图像实体的复杂多模态提示时。论文还介绍了一个名为 MultiBench 的新基准，专门用于评估多实体主题驱动图像生成能力。

正文完

关注公众号获取最新教程