视频转换框架TokenFlow：保持原视频的比例和动态效果情况下改变视频的任意风格

56次阅读

共计 997 个字符，预计需要花费 3 分钟才能阅读完成。

魏茨曼科学研究所发布了一个名为 TokenFlow 的视频转换框架，它利用文本到图像的扩散模型（text-to-image diffusion model）来实现文本驱动的视频编辑。TokenFlow 的目标是生成高质量的视频，这些视频不仅遵循输入文本提示（text prompt）的指导，而且保持了原始视频的空间布局和运动。通过在扩散特征空间中强制一致性，可以实现编辑视频的一致性。具体来说，TokenFlow 通过基于帧间对应关系传播扩散特征来实现这一点，这些对应关系在模型中是现成的。因此，TokenFlow 不需要任何训练或微调，并且可以与任何现成的文本到图像编辑方法一起使用。只需要输入提示词，它就可以在保持原视频的比例和动态效果情况下改变视频的任意风格。

项目主页：https://diffusion-tokenflow.github.io
GitHub 地址：https://github.com/omerbt/TokenFlow
Demo 地址：https://huggingface.co/spaces/weizmannscience/tokenflow

TokenFlow 的关键贡献包括：

提出了一种技术，称为 TokenFlow，它在帧间强制执行扩散特征的语义对应关系，显著提高了由文本到图像扩散模型生成的视频的时间一致性。
对视频扩散特征的性质进行了新颖的实证分析。
在多种真实世界视频上展示了最先进的编辑结果，这些视频描绘了复杂的运动。

论文还讨论了相关工作，包括文本驱动的图像和视频合成、一致的视频风格化、通过扩散特征操作的受控生成等。此外，论文还详细介绍了 TokenFlow 的预处理步骤、关键帧采样和联合编辑、通过 TokenFlow 传播编辑以及整体算法。在实验部分，TokenFlow 在 DAVIS 视频数据集和互联网视频上进行了评估，这些视频描绘了动物、食物、人类和各种运动中的物体。TokenFlow 在保持时间一致性的同时，成功地遵循了编辑提示。论文还与现有的最先进的方法进行了比较，并展示了 TokenFlow 在时间一致性和编辑保真度方面的优势。

最后，论文讨论了 TokenFlow 的局限性，例如它不能处理需要结构变化的编辑，并且在图像编辑技术未能保持原始帧结构时可能会产生视觉伪影。尽管如此，TokenFlow 为利用图像模型进行视频任务和设计文本到视频模型提供了新的视角，并可能激发未来相关领域的研究。

正文完

关注公众号获取最新教程