TikTok发布了名为”Depth Anything”的单目深度估计解决方案

25次阅读
没有评论

共计 815 个字符,预计需要花费 3 分钟才能阅读完成。

TikTok 发布了名为 ”Depth Anything” 的单目深度估计解决方案,Depth Anything 是在 150 万张标记图像和 6200 万 + 无标签图像的联合训练下得到的,提供了最强大的单目深度估计(MDE)基础模型,它可以从大规模的无标注数据中学习以提高模型的泛化能力。该方法利用已有的标注数据集训练教师模型,然后利用教师模型对大规模无标注数据进行伪标签,最后将标注数据和伪标签的数据集用于训练学生模型。为了增强模型的泛化能力,作者提出在模型学习无标注数据时采用更具挑战性的优化目标,以迫使模型从无标注数据中主动获取更多的视觉知识。另外,作者还提出利用预训练的编码器为学生模型提供丰富的语义先验知识,以提高模型的场景理解能力。实验结果表明,该方法可以显著提升模型的零样本泛化能力,并且在多个下游任务中表现优异,如在深度估计和语义分割任务中均取得了新的最优结果。

论文地址:https://huggingface.co/papers/2401.10891

Demo 地址:https://huggingface.co/spaces/LiheYoung/Depth-Anything

TikTok 发布了名为

Depth Anything 模型具有以下主要特点:

  • 大规模无标签数据的应用:模型利用大量简单且多样的无标签单目图像,以增强数据覆盖,从而提高模型的泛化能力和稳健性。
  • 更困难的优化目标:通过学习无标签图像时设置更困难的优化目标,迫使模型主动获取额外视觉知识,学习更稳健的表示,以处理未见的图像。
  • 继承语义先验信息:从预训练的语义分割模型(如 DINOv2)继承语义先验信息,增强深度估计性能,而非采用辅助语义分割任务。
  • 出色的零样本深度估计能力:模型在多个未见数据集上的零样本深度估计能力明显优于 MiDaS。
  • 微调后达到新的 SOTA:通过微调,模型在 NYUv2 和 KITTI 数据集上达到了新的 SOTA。
  • 多任务编码器:编码器可同时用于深度估计和语义分割任务,具有强大的多任务能力。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-23发表,共计815字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码