图像修复方法SUPIR（Scaling-UP Image Restoration）

53次阅读

共计 1005 个字符，预计需要花费 3 分钟才能阅读完成。

中国科学院深圳先进技术研究院、上海人工智能实验室、悉尼大学、香港理工大学、腾讯 PCG ARC 实验室、香港中文大学团队提出了一个名为 SUPIR（Scaling-UP Image Restoration）的图像修复方法，通过参数增加使得模型不仅能够修复图像中的错误或损坏，还能根据文本提示进行智能修复。

项目主页：https://supir.xpixel.group
GitHub 地址：https://github.com/Fanghua-Yu/SUPIR

SUPIR 的主要功能：

图像修复： SUPIR 的核心功能是对低质量或损坏的图像进行修复，提高其视觉质量。这包括处理如模糊、噪点、色彩失真等问题，使图像恢复到高清晰度和高质量状态。

文本引导的修复： SUPIR 能够根据文本提示来指导图像修复。这意味着用户可以通过文本描述来指定希望修复或改变的图像部分，使得修复过程更加定制化和精确。

SUPIR 特点：

模型缩放 ：SUPIR 利用了 StableDiffusion-XL（SDXL）作为生成先验，这是一个包含 26 亿参数的模型。为了适配这个大型模型，设计了一个超过 6 亿参数的适配器。
多模态技术 ：SUPIR 结合了文本描述，允许通过文本提示来指导图像修复过程，从而提高了修复的准确性和智能性。
负质量提示 ：通过引入负质量提示，模型能够在修复过程中避免生成低质量的图像内容，从而提高最终图像的质量。
恢复引导采样 ：为了确保生成的图像忠实于输入的低质量图像，提出了一种新的恢复引导采样方法，以控制扩散过程中的生成。

实现方法：

大型适配器设计 ：设计了一个适配器，它结合了 ControlNet 的高级设计，并通过网络修剪技术减少了可训练的复制块，同时引入了 ZeroSFT 连接器来增强对生成过程的控制。
训练数据收集 ：构建了一个包含 2000 万张高分辨率、高质感图像的数据集，并为每张图像提供了详细的描述性文本注释，为模型训练提供了丰富的数据基础。
文本模态引导 ：将 LLaVA 多模态大型语言模型集成到修复流程中，以理解低质量图像的内容，并使用这些理解作为文本提示来指导修复过程。
恢复引导采样 ：通过调整扩散过程中的采样策略，使得生成的图像在保持高质量细节的同时，忠实于输入的低质量图像。

SUPIR 在图像修复任务中表现出色，尤其是在处理现实世界中的复杂和挑战性场景时。它不仅能够修复图像中的各种退化，还能通过文本提示灵活地控制修复过程，从而生成更符合用户期望的高质量图像。

正文完

关注公众号获取最新教程