3D 人体运动生成式蒙版建模框架MoMask

33次阅读
没有评论

共计 572 个字符,预计需要花费 2 分钟才能阅读完成。

MoMask 是一种新颖的蒙版建模框架,用于驱动文本生成 3D 人体动作。在 MoMask 中,采用了分层量化方案,将人体动作表示为具有高保真度细节的多层离散动作标记。从基础层开始,通过向量量化获得一系列动作标记,逐级推导并存储增量标记到层次结构的后续层中。然后使用两个不同的双向 Transformer 模型。对于基础层的动作标记,在训练阶段,使用掩码 Transformer 模型根据文本输入预测随机掩码的动作标记。在生成(推理)阶段,从空序列开始,我们的掩码 Transformer 模型逐步填充缺失的标记;随后,残差 Transformer 模型根据当前层的结果逐步预测下一层的标记。大量实验证明,MoMask 在文本到动作生成任务上优于最先进的方法,在 HumanML3D 数据集上的 FID 为 0.045(与 T2M-GPT 的 0.141 相比),在 KIT-ML 上为 0.228(与 0.514 相比)。MoMask 还可以无缝应用于相关任务,如文本引导的时序修复,而无需进一步微调模型。

项目主页:https://ericguo5513.github.io/momask

GitHub 地址:https://github.com/EricGuo5513/momask-codes

Demo 地址:https://huggingface.co/spaces/MeYourHint/MoMask

3D 人体运动生成式蒙版建模框架 MoMask

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-12-30发表,共计572字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码