一个针对视频自动配音设计的数据集Anim400K

50次阅读
没有评论

共计 408 个字符,预计需要花费 2 分钟才能阅读完成。

Anim400K 是一个大规模的数据集,包含英语和日语语言的对齐音频和视频剪辑。它由超过 425,000 个对齐的剪辑(共 763 小时)组成,包括来自 190 多个作品的视频和音频,涵盖了数百个主题和类型。Anim400K 还通过元数据进行了扩充,包括流派、主题、节目评级、角色概况和作品水平的动画风格,以及集数摘要、评级和字幕等。此外,还提供了基于对齐剪辑的预先计算的自动语音识别(ASR),以便进行深入研究多种音视频任务。

GitHub 地址:https://github.com/davidmchan/Anim400K

一个针对视频自动配音设计的数据集 Anim400K

特点:

  • 包含超过 425000 个对齐的音视频剪辑,总时长达 763 小时。
  • 这些剪辑来自超过 190 个作品,涵盖了数百种主题和类型。
  • 数据集包含英语和日语两种语言的内容。
  • 利用这个数据集,开发者可以训练和改进自动配音系统
  • 除了自动配音外,Anim400K 还支持多种视频相关任务,如同步翻译、引导式视频概括和类型 / 主题 / 风格分类。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-12发表,共计408字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码