共计 864 个字符,预计需要花费 3 分钟才能阅读完成。
百度发布多模态条件扩散框架 UNIMO-G,它能够处理包含文本和视觉输入的多模态提示,展示了在文本驱动和主题驱动图像生成方面的统一能力。UNIMO- G 特别擅长从包含多个图像实体的复杂多模态提示中生成高保真度的图像。
模型特点:
- 多模态提示处理 :UNIMO- G 能够理解和生成包含自由形式交织的视觉语言输入,如文本和图像的混合。
- 两阶段训练策略 :首先在大规模文本 - 图像对数据集上进行预训练,以发展条件图像生成能力;然后通过多模态提示进行指令调优,以实现统一的图像生成能力。
- 多模态大型语言模型(MLLM):用于编码多模态提示,将文本和视觉信息编码到统一的视觉 - 语言语义空间。
- 条件去噪扩散网络 :基于编码的多模态输入生成图像,使用条件去噪扩散网络(如 U -Net)。
- 数据处理管道 :设计了包含语言接地和图像分割的数据处理管道,用于构建多模态提示。
实现方法:
- 文本到图像预训练 :UNIMO- G 的预训练分为三个阶段,包括在小规模图像语料库上的基础训练,大规模中文文本 - 图像对数据集上的扩展训练,以及在高质量图像 - 文本对上的精细训练。
- 多模态指令调优 :在预训练的基础上,通过多模态提示对模型进行进一步训练,以提高从多模态输入生成图像的能力。这包括生成描述实体的文本提示,使用 Grounding DINO 进行语言接地,以及使用 SAM 进行图像分割。
- 视觉增强学习 :在多模态指令调优阶段,引入了视觉增强学习策略,通过交叉注意力机制增强生成对象和输入图像实体之间的视觉对齐。
- 评估 :在 MS-COCO 和 DreamBench 数据集上评估 UNIMO- G 的性能,并通过人类评估验证其在文本驱动和主题驱动图像生成任务中的有效性。
UNIMO- G 在文本到图像生成和零样本主题驱动合成方面表现出色,尤其是在处理涉及多个图像实体的复杂多模态提示时。论文还介绍了一个名为 MultiBench 的新基准,专门用于评估多实体主题驱动图像生成能力。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-26