InstantID：只需只需上传一张或以上照片，就能快速生成多种风格的图像

46次阅读

共计 1243 个字符，预计需要花费 4 分钟才能阅读完成。

InstantID 与前几天介绍的腾讯开源人像生成器 PhotoMaker 相似，只需只需上传一张或以上照片，就能快速生成多种风格的图像。InstantID 是一种基于强大的扩散模型的解决方案。InstantID 通过一个新颖的 IdentityNet 设计，能够在各种风格中仅使用一张面部图像进行图像个性化处理，同时确保高保真度。InstantID 展示了卓越的性能和效率，对于需要在几秒钟内实现零次拍摄身份保持生成的现实世界应用非常有用。此外，InstantID 与流行的预训练文本到图像扩散模型（如 SD1.5 和 SDXL）无缝集成，作为一个适应性强的插件。代码和预训练的检查点将在 GitHub 上提供。

项目主页：https://instantid.github.io
GitHub 地址：https://github.com/InstantID/InstantID
论文地址：https://huggingface.co/papers/2401.07519

主要贡献：

提出了 InstantID，这是一种创新的 ID 保持适应方法，用于预训练的文本到图像扩散模型，能够在保真度和效率之间架起桥梁。
InstantID 是一个即插即用的模块，与社区中基于相同基础扩散模型的自定义模型兼容，能够在不增加成本的情况下实现预训练模型中的 ID 保持。
InstantID 在保持文本编辑能力的同时，具有出色的性能和效率，点燃了其在多种现实世界应用中的潜力，如新视角合成、ID 插值、多 ID 和多风格合成。

相关工作：

讨论了文本到图像扩散模型，如 GLIDE、DALL·E 2、Imagen 和 Stable Diffusion。
回顾了以主题驱动的图像生成，特别是使用有限数量的特定主题图像来生成基于文本描述的定制图像的方法。
讨论了 ID 保持图像生成，这是一种以保留强烈语义的面部属性为重点的生成方法。

方法：

InstantID 是一个高效的轻量级适配器，能够轻松赋予预训练的文本到图像扩散模型以 ID 保持的能力。
InstantID 包括三个关键组件：一个 ID 嵌入，用于捕捉强大的语义面部信息；一个轻量级适配模块，具有解耦的交叉注意力，以支持图像作为视觉提示；以及一个 IdentityNet，用于编码参考面部图像的详细特征，并具有额外的空间控制。

实验：

在大规模开源数据集 LAION-Face 上实现和训练 InstantID，以确保多样性。
展示了 InstantID 在各种设置中的鲁棒性、提示可编辑性和兼容性。

结论和未来工作：

InstantID 作为一个零次拍摄身份保持生成的解决方案，通过一个简单的即插即用模块，能够在几秒钟内处理任何风格的图像个性化处理，同时保持高保真度。
InstantID 的低成本、即插即用的特性为多种下游应用打开了大门，包括新颖视角合成、身份插值、多身份合成等。
尽管 InstantID 有效，但仍需解决一些挑战，如模型中 ID 嵌入的面部属性高度耦合，以及与我们使用的面部模型固有偏见相关的伦理考虑。未来的工作可能会涉及解耦这些面部属性特征以增强灵活性。

正文完

关注公众号获取最新教程