Stability AI推出AI视频生成模型Stable Video Diffusion,可更具图片、文本生成视频

230次阅读
没有评论

共计 983 个字符,预计需要花费 3 分钟才能阅读完成。

AI 视频生成领域已经涌现出多家明星创业公司,之前小编已经介绍过 Runway 旗下 AI 视频生成工具 Gen2「Morph Studio」「Moonvalley」,在 AI 绘画领域大红大紫的公司 Stability AI 在接连推出 Stable Diffusion、Stable Audio 和 Stable LM 后,也开始在 AI 视频生成领域发力,在今天正式推出视频生成模型 Stable Video Diffusion,Stable Video Diffusion 由两个模型组成的 ——SVD 和 SVD-XT。SVD 可以将静态图片转化为 14 帧的 576×1024 的视频。SVD-XT 使用相同的架构,但将帧数提高到 24。两者都能以每秒 3 到 30 帧的速度生成视频。

开源地址:https://github.com/Stability-AI/generative-models

模型地址:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt

论文地址:https://stability.ai/s/stable_video_diffusion.pdf

Stable Video Diffusion 源代码采用 MIT License 发布在 GitHub 上,模型发布在 Hugging Face 上。Stable Video Diffusion 基于 Stable Diffusion,有两种输出形式,能以每秒 3-30 帧的定制帧速生成 14 和 25 帧。Stability AI 称其模型的表现好于私有模型。

Stability AI 推出 AI 视频生成模型 Stable Video Diffusion,可更具图片、文本生成视频

根据 Stability AI 随 Stable Video Diffusion 一起发布的一篇白皮书,SVD 和 SVD-XT 最初是在一个包含数百万视频的数据集上进行训练的,然后在一个规模较小的数据集上进行了“微调”,这个数据集只有几十万到一百万左右的视频片段。这些视频的来源并不十分清楚,白皮书暗示许多是来自公开的研究数据集,所以无法判断是否有任何版权问题。

不过经过不少网友的测试,此模型至少需要带有 20G 显存的显卡才能勉强运行,还有很多网友说至少 40G 显存显卡才能完全运行,所以大家还是等待后续优化或者微调模型出现,现在就看哪家 Stable Diffusion UI 最先支持此模型了,大家期待吧!

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-11-22发表,共计983字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。