AI视频生成模型MoonShot

78次阅读

共计 402 个字符，预计需要花费 2 分钟才能阅读完成。

由新加坡国立大学与 Salesforce 合作推出的 AI 视频生成模型 MoonShot，支持个性化视频生成、图像动画和视频编辑等功能，也支持跟 ContorlNet 模型配合控制视频生成。

项目主页：https://showlab.github.io/Moonshot
论文地址：https://arxiv.org/abs/2401.01827

主要特点：

一个用于视频生成的传统时空模块，由空间卷积层、自注意力层和聚合空间特征的时序注意力层组成。这样的设计可以在不改变空间特征分布的情况下重复使用文本到图像生成模型的预训练权重，从而提升生成质量。
一个解耦的多模态交叉注意力层，将生成条件限制在文本和图像输入上。这两个条件相互补充，引导生成过程。此外，图像输入提供参考的视觉线索，使时间模块能够专注于视频的一致性。
由于空间特征分布被保留，预训练的图像控制网络模块可以立即集成，用于控制生成物的几何结构，无需额外的训练开销。