一个针对视频自动配音设计的数据集Anim400K

浏览：151次阅读

共计 408 个字符，预计需要花费 2 分钟才能阅读完成。

Anim400K 是一个大规模的数据集，包含英语和日语语言的对齐音频和视频剪辑。它由超过 425,000 个对齐的剪辑（共 763 小时）组成，包括来自 190 多个作品的视频和音频，涵盖了数百个主题和类型。Anim400K 还通过元数据进行了扩充，包括流派、主题、节目评级、角色概况和作品水平的动画风格，以及集数摘要、评级和字幕等。此外，还提供了基于对齐剪辑的预先计算的自动语音识别（ASR），以便进行深入研究多种音视频任务。

GitHub 地址：https://github.com/davidmchan/Anim400K

特点：

包含超过 425000 个对齐的音视频剪辑，总时长达 763 小时。
这些剪辑来自超过 190 个作品，涵盖了数百种主题和类型。
数据集包含英语和日语两种语言的内容。
利用这个数据集，开发者可以训练和改进自动配音系统
除了自动配音外，Anim400K 还支持多种视频相关任务，如同步翻译、引导式视频概括和类型 / 主题 / 风格分类。

正文完

关注公众号获取最新教程

post-qrcode

发表至：无分类

2024-01-12

0

版权声明：本站原创文章，由 AI小诸葛于2024-01-12发表，共计408字。

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

多模态理解和图像定位模型LEGO

达摩院打造高清图像生成视频I2VGen-XL

评论（没有评论）