Sketch2NeRF：多视图草图引导的文本到 3D 生成

54次阅读

共计 1191 个字符，预计需要花费 3 分钟才能阅读完成。

阿里巴巴、中山大学等团队提出一种新的基于多视图草图的文本到 3D 生成方法 Sketch2NeRF，它通过引入草图控制的 2D 扩散模型来生成高保真度的 3D 对象。具体来说，该方法利用预训练的 2D 稳定扩散（Stable Diffusion）和控制网络（ControlNet）对基于神经辐射场（NeRF）的 3D 场景进行优化。此外，还提出了一种同步生成和重建方法来有效优化 NeRF。实验结果表明，该方法在基于草图的相似性和文本对齐方面取得了 state-of-the-art 的性能，展示了在 3D 生成中实现精细控制的可能性。

论文地址：https://arxiv.org/abs/2401.14257

特点：

多视图草图引导：Sketch2NeRF 能够使用任意数量的草图（通常超过 3 个）作为输入，这些草图提供了对生成 3D 对象形状的细粒度控制。
高保真度：模型生成的 3D 对象在视觉上与草图高度一致，同时保持了与文本描述的紧密对应。
同步生成与重建：提出了一种新的同步生成和重建方法来有效优化神经辐射场（NeRF），以实现对 3D 场景的优化。
无需大规模草图 -3D 配对数据集：通过利用预训练的 2D 扩散模型（如 Stable Diffusion 和 ControlNet），模型能够在没有大量训练数据的情况下进行 3D 对象的生成。

该方法相比其他文本到 3D 方法具有以下优势：

精细的草图控制：该方法可以根据输入的多个视角草图生成对应的高保真 3D 内容，在草图的相似度指标 CD 和 HD 上显著优于其他方法，表明能够实现精细的草图控制。

更好的文本一致性：在文本一致性指标 CLIP R-Precision 上，该方法优于其他方法，特别是与最新的文本到 3D 方法 ProlificDreamer 相比，在 CLIP B/32 模型上提高了 1.7%，表明生成的 3D 对象与文本描述更一致。

有效的优化策略：该方法提出的同步生成和重建优化策略，以及逐步退火的时间表，可以更有效地优化 NeRF 以实现高质量的 3D 内容生成。

无需大规模训练数据：该方法利用预训练的 2D 扩散模型作为指导，无需大规模的草图 -3D 配对数据进行训练，克服了现有草图到 3D 方法需要大量数据的限制。

多样化的生成：该方法可以从任意数量的草图输入生成多样化的 3D 对象，实验证明即使使用很少的草图 (如 3 张) 也能生成一致的 3D 内容。

处理复杂姿态变化：在处理具有大姿态变化空间的人类生成任务上，该方法可以生成高质量、各种姿势的人类，克服了现有方法无法生成人类的局限。

解决 ” 两面神 ” 问题：该方法生成的 3D 对象更符合现实世界的物体，解决了现有方法中存在的“两面神”问题。

生成更规整的物体：与基于提示的方法相比，该方法生成的物体更规整，如椅子四脚更准确地位于四个角落。

综上所述，该方法在草图控制、文本一致性、优化策略、数据需求、生成多样性、复杂姿态处理、3D 一致性等多个方面都优于现有的文本到 3D 方法，实现了精细控制的 3D 生成。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-27

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

新型基准测试CONTEXTUA