3D 人体运动生成式蒙版建模框架MoMask

112次阅读

共计 572 个字符，预计需要花费 2 分钟才能阅读完成。

MoMask 是一种新颖的蒙版建模框架，用于驱动文本生成 3D 人体动作。在 MoMask 中，采用了分层量化方案，将人体动作表示为具有高保真度细节的多层离散动作标记。从基础层开始，通过向量量化获得一系列动作标记，逐级推导并存储增量标记到层次结构的后续层中。然后使用两个不同的双向 Transformer 模型。对于基础层的动作标记，在训练阶段，使用掩码 Transformer 模型根据文本输入预测随机掩码的动作标记。在生成（推理）阶段，从空序列开始，我们的掩码 Transformer 模型逐步填充缺失的标记；随后，残差 Transformer 模型根据当前层的结果逐步预测下一层的标记。大量实验证明，MoMask 在文本到动作生成任务上优于最先进的方法，在 HumanML3D 数据集上的 FID 为 0.045（与 T2M-GPT 的 0.141 相比），在 KIT-ML 上为 0.228（与 0.514 相比）。MoMask 还可以无缝应用于相关任务，如文本引导的时序修复，而无需进一步微调模型。

项目主页：https://ericguo5513.github.io/momask
GitHub 地址：https://github.com/EricGuo5513/momask-codes
Demo 地址：https://huggingface.co/spaces/MeYourHint/MoMask