去噪扩散模型（Denoising Diffusion Models，DDM）

55次阅读

共计 956 个字符，预计需要花费 3 分钟才能阅读完成。

Meta 和纽约大学团队发布论文，对 去噪扩散模型（Denoising Diffusion Models，DDM）在自监督表示学习中的表示学习能力进行了探究。DDM 通常用于图像生成，其通过逐步向图像中添加噪声，然后去噪来学习有效的表示。研究人员通过逐步破坏 DDM，将其重构为经典的 去噪自动编码器（Denoising Autoencoder，DAE），来探究 DDM 中的各种组件如何影响自监督表示学习。

论文地址：https://huggingface.co/papers/2401.14404

特点：

解构 DDM： 研究者们通过逐步解构 DDM，探索其在自监督学习中的表示学习能力，这一过程揭示了 DDM 的关键组件。
简化的 DAE 架构： 通过解构过程，研究者们提出了一种名为“潜在去噪自编码器”（latent Denoising Autoencoder, l-DAE）的简化架构，该架构在自监督学习任务中表现出色。
关键组件的发现： 研究发现，低维潜在空间的引入是 DDM 能够学习良好表示的关键，而这一空间中的噪声添加是现代 DDM 与经典 DAE 之间的主要区别。
自监督学习性能： l-DAE 在自监督学习任务中的表现与现有的对比学习（contrastive learning）和遮蔽（masking）方法相比具有竞争力，尽管仍有一定差距。

实现方法：

DDM 的自监督学习调整： 研究者们首先将 DDM 调整为更适合自监督学习的环境，包括去除类条件、简化噪声调度等。
解构分词器（Tokenizer）： 研究者们通过比较不同的分词器（包括卷积 VAE、基于补丁的 VAE 和 AE、基于补丁的 PCA）来简化 DDM 的分词器部分。
向经典 DAE 的转变： 研究者们进一步通过在图像空间中使用逆 PCA 操作、预测干净数据而非噪声、使用单一噪声水平等步骤，将模型推向更接近经典 DAE 的形式。
性能评估： 通过线性探测（linear probing）和端到端微调（end-to-end fine-tuning）来评估 l -DAE 的性能，并与现有的自监督学习方法进行比较。

结果表明，只有很少的现代组件对学习好的表示是至关重要的，而其他许多组件是非关键的。该研究最终提出了一种高度简化且在很大程度上类似于经典 DAE 的方法。研究人员希望这项研究能够重新激起人们对经典去噪方法在现代自监督学习领域中的兴趣。

正文完

关注公众号获取最新教程