通用编码器模型SSR-Encoder

浏览：149次阅读

共计 610 个字符，预计需要花费 2 分钟才能阅读完成。

由上海交通大学、小红书、北京邮电大学、卡内基梅隆大学、上海科技大学开发人员打造的 SSR-Encoder 是一个通用的编码器模型，能够根据文本查询或掩码查询选择的图像表示，引导任何自定义扩散模型进行单主题驱动的图像生成（顶部分支），或从不同图像中进行多主题驱动的图像生成（中间分支），而无需任何额外的测试时微调。此外，我们的 SSR-Encoder 还可以用于带有额外控制的可控生成（底部分支）。

最近在主题驱动的图像生成领域取得的进展已经实现了零样本生成，但精确选择和关注关键主题表示仍然具有挑战性。为了解决这个问题，我们引入了 SSR-Encoder，这是一种新颖的架构，专门用于从单个或多个参考图像中有选择地捕捉任何主题。它可以响应包括文本和掩码在内的各种查询模态，而无需进行测试时的微调。SSR-Encoder 结合了一个将查询输入与图像补丁对齐的 Token-to-Patch Aligner 和一个用于提取和保留主题细节特征的 Detail-Preserving Subject Encoder，从而生成主题嵌入。这些嵌入与原始文本嵌入一起，用于条件生成过程。SSR-Encoder 具有模型的通用性和高效性，适应各种自定义模型和控制模块。通过嵌入一致性正则化损失来改善训练效果，我们进行了大量实验证明了其在多样化和高质量图像生成方面的有效性，表明它具有广泛的适用性。