具有时空一致性的基于实体的4D内容生成模型4DGen

112次阅读

共计 532 个字符，预计需要花费 2 分钟才能阅读完成。

在现有的 4D 内容创作流程中，借助文本到图像和文本到视频扩散模型，利用分数蒸馏抽样来优化整个动态 3D 场景。然而，由于这些流程从文本或图像输入生成 4D 内容，因此在通过试错进行提示工程方面需要投入大量时间和精力。本研究介绍了 4DGen，一种新颖的基于实体的 4D 内容生成框架，将 4D 生成任务分解为多个阶段。我们确定静态 3D 资源和单目视频序列作为构建 4D 内容的关键组成部分。我们的流程便于条件 4D 生成，使用户能够指定几何形状（3D 资源）和运动（单目视频），从而在内容创建方面具有更好的控制能力。此外，我们使用动态 3D 高斯函数构建 4D 表示，通过渲染在训练过程中实现高效的高分辨率监督，从而实现高质量的 4D 生成。此外，我们使用空间 - 时间伪标签在锚定帧上，并通过 3D 感知分数蒸馏抽样和平滑正则化实现无缝一致性先验。与现有基线方法相比，我们的方法在忠实地重建输入信号和从新视点和时间步长推断渲染方面取得了具有竞争力的结果。最重要的是，我们的方法支持实体生成，为用户提供了增强的控制能力，这是以前的方法难以实现的特性。