谷歌发布AI视频生成模型Lumiere

浏览：121次阅读

共计 1073 个字符，预计需要花费 3 分钟才能阅读完成。

谷歌 1 月 23 日在预印本平台 arXiv 发布文本到视频扩散模型 Lumiere。Lumiere 可以基于用户的自然语言提示、图像 + 提示生成长达 5 秒的视频，或者根据用户上传的单个参考图像，生成基于提示词的同风格视频，还允许用户通过自然语言指令生成一致的视频风格。用户可以指定特定区域使 Lumiere 对图像内容进行动画处理。

项目主页：https://lumiere-video.github.io
论文地址：https://arxiv.org/abs/2401.12945

Lumiere 的核心贡献和特点如下：

Space-Time U-Net（STUNet）架构 ：Lumiere 采用了一种新颖的空间 - 时间 U -Net 架构，该架构能够在一次模型传递中生成整个视频的时间跨度。这与现有视频模型不同，后者通常先合成关键帧，然后通过时间超分辨率（Temporal Super-Resolution, TSR）模型填充帧之间的内容。
全局时间一致性 ：通过在模型中同时进行空间和时间的下采样和上采样，Lumiere 能够学习直接生成全帧率、低分辨率视频，并在多个空间 - 时间尺度上处理视频，从而实现全局时间一致性。
应用广泛 ：Lumiere 的设计使其易于适应多种内容创作任务和视频编辑应用，包括图像到视频（image-to-video）、视频修复（video inpainting）和风格化生成（stylized generation）。
预训练文本到图像扩散模型 ：Lumiere 基于预训练的文本到图像扩散模型，通过在模型中插入时间层并对其进行微调，实现了视频生成。
实验结果 ：Lumiere 在文本到视频生成方面展示了最先进的结果，并在多种应用场景下展示了其有效性，包括风格化视频生成、视频修复和图像到视频的转换。
用户研究 ：通过用户研究，Lumiere 在文本到视频和图像到视频生成方面均获得了用户的青睐，显示出更好的视觉质量和运动表现。
零样本评估 ：在 UCF101 数据集上的零样本评估中，Lumiere 在 Fréchet Video Distance（FVD）和 Inception Score（IS）指标上取得了有竞争力的成绩。
局限性 ：尽管 Lumiere 在生成连贯运动和高质量视频方面取得了显著进展，但它并不适用于生成包含多个镜头或场景转换的视频。此外，Lumiere 基于像素空间操作的文本到图像模型，因此需要空间超分辨率模块来生成高分辨率图像。
社会影响 ：Lumiere 的技术可能被用于创造性和灵活的内容生成，但同时也存在被滥用的风险，如制作虚假或有害内容。因此，开发和应用检测偏见和恶意使用的工具至关重要。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-24

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

基于 LLM 的领域知识助手“茴香豆”