共计 1191 个字符,预计需要花费 3 分钟才能阅读完成。
阿里巴巴、中山大学等团队提出一种新的基于多视图草图的文本到 3D 生成方法 Sketch2NeRF,它通过引入草图控制的 2D 扩散模型来生成高保真度的 3D 对象。具体来说,该方法利用预训练的 2D 稳定扩散(Stable Diffusion)和控制网络(ControlNet)对基于神经辐射场(NeRF)的 3D 场景进行优化。此外,还提出了一种同步生成和重建方法来有效优化 NeRF。实验结果表明,该方法在基于草图的相似性和文本对齐方面取得了 state-of-the-art 的性能,展示了在 3D 生成中实现精细控制的可能性。
特点:
- 多视图草图引导:Sketch2NeRF 能够使用任意数量的草图(通常超过 3 个)作为输入,这些草图提供了对生成 3D 对象形状的细粒度控制。
- 高保真度:模型生成的 3D 对象在视觉上与草图高度一致,同时保持了与文本描述的紧密对应。
- 同步生成与重建:提出了一种新的同步生成和重建方法来有效优化神经辐射场(NeRF),以实现对 3D 场景的优化。
- 无需大规模草图 -3D 配对数据集:通过利用预训练的 2D 扩散模型(如 Stable Diffusion 和 ControlNet),模型能够在没有大量训练数据的情况下进行 3D 对象的生成。
该方法相比其他文本到 3D 方法具有以下优势:
精细的草图控制:该方法可以根据输入的多个视角草图生成对应的高保真 3D 内容,在草图的相似度指标 CD 和 HD 上显著优于其他方法,表明能够实现精细的草图控制。
更好的文本一致性:在文本一致性指标 CLIP R-Precision 上,该方法优于其他方法,特别是与最新的文本到 3D 方法 ProlificDreamer 相比,在 CLIP B/32 模型上提高了 1.7%,表明生成的 3D 对象与文本描述更一致。
有效的优化策略:该方法提出的同步生成和重建优化策略,以及逐步退火的时间表,可以更有效地优化 NeRF 以实现高质量的 3D 内容生成。
无需大规模训练数据:该方法利用预训练的 2D 扩散模型作为指导,无需大规模的草图 -3D 配对数据进行训练,克服了现有草图到 3D 方法需要大量数据的限制。
多样化的生成:该方法可以从任意数量的草图输入生成多样化的 3D 对象,实验证明即使使用很少的草图 (如 3 张) 也能生成一致的 3D 内容。
处理复杂姿态变化:在处理具有大姿态变化空间的人类生成任务上,该方法可以生成高质量、各种姿势的人类,克服了现有方法无法生成人类的局限。
解决 ” 两面神 ” 问题:该方法生成的 3D 对象更符合现实世界的物体,解决了现有方法中存在的“两面神”问题。
生成更规整的物体:与基于提示的方法相比,该方法生成的物体更规整,如椅子四脚更准确地位于四个角落。
综上所述,该方法在草图控制、文本一致性、优化策略、数据需求、生成多样性、复杂姿态处理、3D 一致性等多个方面都优于现有的文本到 3D 方法,实现了精细控制的 3D 生成。