共计 914 个字符,预计需要花费 3 分钟才能阅读完成。
亚马逊推出在线购物“虚拟试穿”模型 Diffuse to Choice (DTC),旨在为虚拟试穿(Virtual Try-All,简称 Vit-All)应用提供支持。该模型的目标是将电商物品插入用户图像中,同时保留物品的细节。DTC 模型能够在保持高保真细节的同时,快速地将电子商务商品图像融入到用户指定的场景中,实现无缝集成。
特点:
- 高效推理: DTC 模型能够在大约 6 秒内完成单次推理,这得益于其基于潜空间的扩散模型,使得模型能够在保持细节的同时实现快速处理。
- 细节保留: 通过直接将参考图像的细粒度特征融入到主扩散模型的潜在特征映射中,DTC 能够有效地保留商品的细节。
- 语义操作: DTC 不仅关注于商品的细节,还确保了商品在给定场景内容中的准确语义操作。
- 零样本学习: DTC 能够在零样本(zero-shot)设置下工作,这意味着它不需要针对每个产品进行微调,从而提高了实用性。
- 交互性: 用户可以通过调整遮罩(mask)来操纵服装样式,例如将 T 恤衫塞入或卷起袖子,展示了模型的交互性。
实现方法:
- 潜空间扩散模型: DTC 基于 Stable Diffusion v1.5,这是一个潜空间扩散模型,它通过逐步引入噪声并预测去除噪声来生成图像。
- 辅助 U -Net 编码器: DTC 引入了一个辅助 U -Net 编码器,用于捕捉参考图像的细粒度特征,并将其直接注入到主 U -Net 解码器中。
- 特征级线性调制(FiLM): 使用 FiLM 模块来调整主 U -Net 编码器和辅助 U -Net 编码器之间的特征通道,以保留参考图像的细节。
- 感知损失: 为了进一步增强基本特征(如颜色)的对齐,DTC 使用了预训练的 VGG 模型来计算感知损失。
- 遮罩策略: 在训练和推理过程中,DTC 交替使用细粒度遮罩和边界框形状的遮罩,以确保模型能够处理各种商品样式。
- 迭代修复: 用户可以通过迭代地添加和调整遮罩来逐步装饰一个空房间或尝试不同的服装组合。
总的来说,DTC 通过结合细粒度特征的直接注入、感知损失和高效的推理过程,为虚拟试穿提供了一个强大的工具,使得用户能够在各种环境中尝试和定制商品,同时保持了商品的详细外观和场景的语义一致性。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-26