字节跳动联合中山大学团队联合提出了一种名为DiffusionGPT的统一文本到图像生成系统

浏览：136次阅读

共计 1250 个字符，预计需要花费 4 分钟才能阅读完成。

字节跳动联合中山大学团队联合提出了一种名为 DiffusionGPT 的统一文本到图像生成系统，这是一个利用大语言模型（LLM）驱动的文本到图像生成系统。DiffusionGPT 旨在克服当前文本到图像系统在处理多样化输入和单一模型输出方面的挑战。系统的核心是一个大型语言模型，它作为认知引擎，处理不同的输入并促进专家模型的选择，以生成高质量的图像。简单来说，就是通过 ChatGPT 来优化 SD 模型生图。

项目主页：https://diffusiongpt.github.io
GitHub 地址：https://github.com/DiffusionGPT/DiffusionGPT
DiffusionGPT 的 Demo 地址：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT
DiffusionGPT-XL 的 Demo 地址：https://huggingface.co/spaces/DiffusionGPT/DiffusionGPT-XL

DiffusionGPT 的主要特点和贡献包括：

新洞察 ：DiffusionGPT 使用 LLM 作为整个文本到图像生成系统的驱动力，LLM 负责处理输入并指导模型选择，以实现卓越的输出。
全合一系统 ：DiffusionGPT 提供了一个多功能和专业的解决方案，兼容各种扩散模型，可以处理不同类型的提示，扩大其适用性。
模型限制 ：尽管像 SD1.5 这样的稳定扩散模型展示了对各种提示的适应性，但在特定领域的表现不佳。相反，领域特定的模型（如 SD1.5+Lora）在特定子领域内表现出色，但缺乏多样性。
效率和创新 ：DiffusionGPT 以其无需训练的特性脱颖而出，允许作为即插即用的解决方案轻松集成。通过结合“思维之树”（Tree-of-Thought, ToT）和人类反馈，系统实现了更高的准确性，并为聚合更多专家提供了灵活的过程。
高效果 ：DiffusionGPT 在传统稳定扩散模型上表现卓越，通过提供全合一系统，为社区在图像生成领域的发展提供了更高效和有效的路径。
提示约束 ：在稳定扩散的训练过程中，文本信息通常由描述性陈述组成，如标题。但在实际应用中，会遇到各种提示类型，包括指令和灵感。当前的生成模型在为这些多样化的提示类型实现最佳生成性能方面存在挑战。

DiffusionGPT 的工作流程包括四个步骤：提示解析、模型构建和搜索的思维之树（Tree-of-Thought, ToT）、模型选择以及执行生成。系统能够准确解析各种类型的提示，包括基于提示、基于指令、基于灵感和基于假设的输入类型。然后，系统利用 ToT 结构来识别最适合的生成模型，并通过人类反馈来优化模型选择过程。最后，系统执行生成过程，生成高质量的图像。

论文还讨论了与现有工作的相关性，包括基于文本的图像生成和大型语言模型（LLMs）在视觉语言任务中的应用。此外，论文详细介绍了 DiffusionGPT 的方法论，包括提示解析、模型构建和搜索、模型选择以及生成执行的具体实现。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-20

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

腾讯在Hugging Face上发布EvalCrafter排行榜