谷歌发布AI视频生成模型Lumiere

58次阅读
没有评论

共计 1073 个字符,预计需要花费 3 分钟才能阅读完成。

谷歌 1 月 23 日在预印本平台 arXiv 发布文本到视频扩散模型 Lumiere。Lumiere 可以基于用户的自然语言提示、图像 + 提示生成长达 5 秒的视频,或者根据用户上传的单个参考图像,生成基于提示词的同风格视频,还允许用户通过自然语言指令生成一致的视频风格。用户可以指定特定区域使 Lumiere 对图像内容进行动画处理。

项目主页:https://lumiere-video.github.io

论文地址:https://arxiv.org/abs/2401.12945

谷歌发布 AI 视频生成模型 Lumiere

Lumiere 的核心贡献和特点如下:

  1. Space-Time U-Net(STUNet)架构 :Lumiere 采用了一种新颖的空间 - 时间 U -Net 架构,该架构能够在一次模型传递中生成整个视频的时间跨度。这与现有视频模型不同,后者通常先合成关键帧,然后通过时间超分辨率(Temporal Super-Resolution, TSR)模型填充帧之间的内容。
  2. 全局时间一致性 :通过在模型中同时进行空间和时间的下采样和上采样,Lumiere 能够学习直接生成全帧率、低分辨率视频,并在多个空间 - 时间尺度上处理视频,从而实现全局时间一致性。
  3. 应用广泛 :Lumiere 的设计使其易于适应多种内容创作任务和视频编辑应用,包括图像到视频(image-to-video)、视频修复(video inpainting)和风格化生成(stylized generation)。
  4. 预训练文本到图像扩散模型 :Lumiere 基于预训练的文本到图像扩散模型,通过在模型中插入时间层并对其进行微调,实现了视频生成。
  5. 实验结果 :Lumiere 在文本到视频生成方面展示了最先进的结果,并在多种应用场景下展示了其有效性,包括风格化视频生成、视频修复和图像到视频的转换。
  6. 用户研究 :通过用户研究,Lumiere 在文本到视频和图像到视频生成方面均获得了用户的青睐,显示出更好的视觉质量和运动表现。
  7. 零样本评估 :在 UCF101 数据集上的零样本评估中,Lumiere 在 Fréchet Video Distance(FVD)和 Inception Score(IS)指标上取得了有竞争力的成绩。
  8. 局限性 :尽管 Lumiere 在生成连贯运动和高质量视频方面取得了显著进展,但它并不适用于生成包含多个镜头或场景转换的视频。此外,Lumiere 基于像素空间操作的文本到图像模型,因此需要空间超分辨率模块来生成高分辨率图像。
  9. 社会影响 :Lumiere 的技术可能被用于创造性和灵活的内容生成,但同时也存在被滥用的风险,如制作虚假或有害内容。因此,开发和应用检测偏见和恶意使用的工具至关重要。
正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-01-24发表,共计1073字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码