百度发布视频生成模型 UniVG

40次阅读

共计 965 个字符，预计需要花费 3 分钟才能阅读完成。

百度发布视频生成模型 UniVG，该模型，区分了高自由度和低自由度两种任务，分别使用了不同的方式生成视频。根据运动幅度的不同使用不同的方案确实是现在没办法平衡两者的一个办法。

项目主页：https://univg-baidu.github.io
论文地址：https://arxiv.org/abs/2401.09084

该论文介绍了一个名为 UniVG（Unified-modal Video Generation）的统一视频生成框架，它支持多种视频生成任务，包括文本到视频（Text-to-Video）、图像到视频（Image-to-Video）以及文本与图像结合到视频（Text & Image-to-Video）。UniVG 旨在处理文本和图像模态的多种视频生成任务，以满足实际应用场景中用户灵活输入的需求。

UniVG 框架的核心贡献包括：

多任务视频生成能力 ：UniVG 能够处理多种视频生成任务，包括语义对齐的文本 / 图像到视频生成和图像动画。
引入有偏高斯噪声（Biased Gaussian Noise, BGN）：为了更好地保留输入条件的内容，UniVG 在低自由度视频生成任务中引入了 BGN，这有助于在生成过程中更好地保持输入内容。
实验结果 ：UniVG 在公共学术基准测试集 MSR-VTT 上实现了最低的 Fréchet 视频距离（FVD），在人类评估中超过了当前的开源方法，并与当前的封闭源方法 Gen2 相当。

UniVG 框架包括三个主要模型：基础模型（Base Model, FB），图像动画模型（Image Animation Model, FA），以及超分辨率模型（Super Resolution Model, FSR）。基础模型能够处理任意组合的文本和图像条件，输出与输入条件语义对齐的视频序列。图像动画模型通过在基础模型上进行微调并添加图像拼接条件，生成像素级对齐的视频帧。超分辨率模型则用于提高每帧的分辨率。

在实验部分，UniVG 在多个数据集上进行了训练，并在 MSR-VTT 测试集上进行了评估。通过客观指标和人类评估，UniVG 在视频质量、运动质量、文本忠实度等方面表现出色，并且在整体偏好上与 Gen2 相当，超过了其他方法。

论文还进行了消融研究，展示了 BGN 在低自由度视频生成任务中的优势，并通过调整文本和图像条件的权重，展示了 UniVG 在生成视频时的灵活性。

正文完

关注公众号获取最新教程