共计 1005 个字符,预计需要花费 3 分钟才能阅读完成。
中国科学院深圳先进技术研究院、上海人工智能实验室、悉尼大学、香港理工大学、腾讯 PCG ARC 实验室、香港中文大学团队提出了一个名为 SUPIR(Scaling-UP Image Restoration)的图像修复方法,通过参数增加使得模型不仅能够修复图像中的错误或损坏,还能根据文本提示进行智能修复。
项目主页:https://supir.xpixel.group
GitHub 地址:https://github.com/Fanghua-Yu/SUPIR
SUPIR 的主要功能:
图像修复: SUPIR 的核心功能是对低质量或损坏的图像进行修复,提高其视觉质量。这包括处理如模糊、噪点、色彩失真等问题,使图像恢复到高清晰度和高质量状态。
文本引导的修复: SUPIR 能够根据文本提示来指导图像修复。这意味着用户可以通过文本描述来指定希望修复或改变的图像部分,使得修复过程更加定制化和精确。
SUPIR 特点:
- 模型缩放 :SUPIR 利用了 StableDiffusion-XL(SDXL)作为生成先验,这是一个包含 26 亿参数的模型。为了适配这个大型模型,设计了一个超过 6 亿参数的适配器。
- 多模态技术 :SUPIR 结合了文本描述,允许通过文本提示来指导图像修复过程,从而提高了修复的准确性和智能性。
- 负质量提示 :通过引入负质量提示,模型能够在修复过程中避免生成低质量的图像内容,从而提高最终图像的质量。
- 恢复引导采样 :为了确保生成的图像忠实于输入的低质量图像,提出了一种新的恢复引导采样方法,以控制扩散过程中的生成。
实现方法:
- 大型适配器设计 :设计了一个适配器,它结合了 ControlNet 的高级设计,并通过网络修剪技术减少了可训练的复制块,同时引入了 ZeroSFT 连接器来增强对生成过程的控制。
- 训练数据收集 :构建了一个包含 2000 万张高分辨率、高质感图像的数据集,并为每张图像提供了详细的描述性文本注释,为模型训练提供了丰富的数据基础。
- 文本模态引导 :将 LLaVA 多模态大型语言模型集成到修复流程中,以理解低质量图像的内容,并使用这些理解作为文本提示来指导修复过程。
- 恢复引导采样 :通过调整扩散过程中的采样策略,使得生成的图像在保持高质量细节的同时,忠实于输入的低质量图像。
SUPIR 在图像修复任务中表现出色,尤其是在处理现实世界中的复杂和挑战性场景时。它不仅能够修复图像中的各种退化,还能通过文本提示灵活地控制修复过程,从而生成更符合用户期望的高质量图像。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-26