苹果提出新的方法OGEN，来提高微调模型的开放域泛化能力

63次阅读

共计 933 个字符，预计需要花费 3 分钟才能阅读完成。

来自苹果的研究人员提出了一种新的方法 OGEN，来提高微调模型的开放域泛化能力，通过引入一个类条件特征生成器（class-conditional feature generator）来合成未知类别的特征，这些特征仅基于未知类别的名称。这样的合成特征有助于在优化过程中为未知类别提供有用的知识，从而帮助模型在已知类别（ID）和未知类别（OOD）之间建立更可靠的决策边界。此外，OGEN 还采用了自适应自蒸馏（adaptive self-distillation）机制，以进一步减少过拟合并提高模型的泛化能力。

论文地址：https://arxiv.org/abs/2401.15914

主要特点：

类条件特征生成器： 能够根据未知类别的名称生成图像特征，这些特征有助于模型学习如何处理未知数据。
自适应自蒸馏： 在优化过程中，通过自适应地从早期训练周期中选择“教师模型”来指导当前的“学生模型”，以防止过拟合。
提高 OOD 泛化性能： 在不同的设置下，OGEN 方法能够显著提高模型在处理未知类别时的性能。

工作原理： OGEN 的工作流程包括以下几个关键步骤：

特征合成： 使用类条件特征生成器，根据已知类别的相似性，从已知类别中“外推”（extrapolate）出未知类别的特征。
联合优化： 将已知类别和合成的未知类别特征一起用于模型的联合优化，以改善决策边界。
自适应自蒸馏： 在训练过程中，动态地选择过去的模型检查点（checkpoints）作为教师模型，以指导当前的学生模型，确保在提高 OOD 泛化能力的同时，不会损害 ID 性能。

具体应用场景： OGEN 方法可以应用于多种场景，包括但不限于：