GaussianAvatar：从单个视频中创建逼真的人像建模

47次阅读

共计 1428 个字符，预计需要花费 4 分钟才能阅读完成。

来自哈尔滨工业大学、北京师范大学、清华大学的研究人员提出了一个名为 GaussianAvatar 的方法，用于从单个视频中创建逼真的人类化身（avatar）。GaussianAvatar 通过使用可动画化的 3D 高斯（animatable 3D Gaussians）来明确表示人体在不同姿势和服装风格下的外观。这种方法能够更有效地从 2D 观察中融合 3D 外观，并支持姿势依赖的外观建模。

项目主页：https://huliangxiao.github.io/GaussianAvatar
GitHub 地址：https://github.com/huliangxiao/GaussianAvatar

GaussianAvatar 的主要特点和实现方法如下：

可动画化的 3D 高斯（Animatable 3D Gaussians）：GaussianAvatar 使用 3D 高斯来表示人体表面，这些高斯具有动态属性，可以通过正向蒙皮（forward skinning）过程从标准空间（canonical space）变换到运动空间（motion space），从而实现自由视角渲染。
动态外观网络（Dynamic Appearance Network）：为了支持姿势依赖的外观建模，GaussianAvatar 引入了一个动态外观网络，该网络与一个可优化的特征张量（optimizable feature tensor）结合，用于学习从姿势到外观的映射。这允许模型在不同姿势下预测人体外观的动态属性。
联合优化运动和外观（Joint Motion and Appearance Optimization）：GaussianAvatar 通过在化身建模过程中联合优化运动和外观，解决了单目设置中运动估计不准确的问题。这种方法允许网络在建模过程中同时优化运动和外观，提高了最终的外观质量。
训练策略（Training Strategy）：GaussianAvatar 采用两阶段训练策略。在第一阶段，网络学习将序列外观融合到可优化的特征张量中，并进行运动优化以获得准确的人体运动。在第二阶段，将姿势编码器的输出与训练好的特征张量结合，进一步细化预测。
实验验证 ：GaussianAvatar 在多个公开的人体数据集上进行了验证，包括 People-Snapshot、NeuMan 和 DynVideo 数据集。实验结果表明，GaussianAvatar 在恢复动态外观和纠正由初始运动估计引起的伪影方面优于现有方法。
实现细节 ：GaussianAvatar 使用了 U -Net 架构作为姿势编码器，以及一个多层感知器（MLP）作为高斯参数解码器。整个框架在 NVIDIA RTX 3090 GPU 上进行训练，训练时间从 0.5 到 6 小时不等。

应用包括：