Pika联手北大、斯坦福开源文生图框架RPG-DiffusionMaster

44次阅读

共计 929 个字符，预计需要花费 3 分钟才能阅读完成。

Pika 在社交平台 X 上宣布，Pika 实验室与北京大学和斯坦福大学推出开源最新文本到图像生成、编辑框架 RPG-DiffusionMaster，RPG 在上下文理解、组合语义对齐、多轮对话理解等方面有显著改进。RPG 框架利用多模态大型语言模型（Multimodal LLMs）的强大推理能力，增强了文本到图像扩散模型（diffusion models）的组合性和可控性。

GitHub 地址：https://github.com/YangLing0818/RPG-DiffusionMaster

以下是 RPG 框架的主要特点和贡献：

多模态重描述（Multimodal Recaptioning）：使用 LLMs 将文本提示分解为更详细的子提示，并重新描述它们，以增强扩散模型中的文本理解和语义对齐。
链式思维规划（Chain-of-Thought Planning）：将图像空间划分为互补的子区域，并为每个子区域分配不同的子提示，将复杂的生成任务分解为多个简单子任务。利用 MLLMs 的链式思维推理能力，高效地规划区域划分。
互补区域扩散（Complementary Regional Diffusion）：基于规划的非重叠子区域及其相应的提示，提出互补区域扩散方法，以增强文本到图像生成的灵活性和精确性。通过独立生成图像内容并聚合它们，解决了重叠图像内容的挑战。
用户友好性（User-Friendly）：RPG 框架易于使用，并且可以泛化到不同的 MLLM 架构（如 MiniGPT-4）和扩散模型（如 ControlNet）。
实验结果：通过广泛的定性和定量比较，RPG 在多类别对象组合和文本 - 图像语义对齐方面优于现有的最先进文本到图像扩散模型，如 DALL-E 3 和 SDXL。
文本引导的图像编辑（Text-Guided Image Editing）：RPG 框架可以扩展到文本引导的图像编辑任务，通过精确的轮廓编辑和互补区域扩散生成相结合，实现精确的图像编辑。
代码开源：论文提供了 RPG 框架的代码，可以在 GitHub 上找到。

总的来说，RPG 框架通过结合多模态 LLMs 的推理能力和互补区域扩散策略，显著提高了文本到图像生成的质量和对复杂文本提示的处理能力，同时提供了一个灵活且易于使用的平台，用于图像生成和编辑。

正文完

关注公众号获取最新教程