苹果提出新的方法OGEN,来提高微调模型的开放域泛化能力

81次阅读
没有评论

共计 933 个字符,预计需要花费 3 分钟才能阅读完成。

来自苹果的研究人员提出了一种新的方法 OGEN,来提高微调模型的开放域泛化能力,通过引入一个类条件特征生成器(class-conditional feature generator)来合成未知类别的特征,这些特征仅基于未知类别的名称。这样的合成特征有助于在优化过程中为未知类别提供有用的知识,从而帮助模型在已知类别(ID)和未知类别(OOD)之间建立更可靠的决策边界。此外,OGEN 还采用了自适应自蒸馏(adaptive self-distillation)机制,以进一步减少过拟合并提高模型的泛化能力。

论文地址:https://arxiv.org/abs/2401.15914

主要特点:

  1. 类条件特征生成器: 能够根据未知类别的名称生成图像特征,这些特征有助于模型学习如何处理未知数据。
  2. 自适应自蒸馏: 在优化过程中,通过自适应地从早期训练周期中选择“教师模型”来指导当前的“学生模型”,以防止过拟合。
  3. 提高 OOD 泛化性能: 在不同的设置下,OGEN 方法能够显著提高模型在处理未知类别时的性能。

工作原理: OGEN 的工作流程包括以下几个关键步骤:

  1. 特征合成: 使用类条件特征生成器,根据已知类别的相似性,从已知类别中“外推”(extrapolate)出未知类别的特征。
  2. 联合优化: 将已知类别和合成的未知类别特征一起用于模型的联合优化,以改善决策边界。
  3. 自适应自蒸馏: 在训练过程中,动态地选择过去的模型检查点(checkpoints)作为教师模型,以指导当前的学生模型,确保在提高 OOD 泛化能力的同时,不会损害 ID 性能。

具体应用场景: OGEN 方法可以应用于多种场景,包括但不限于:

  • 图像分类: 在图像分类任务中,OGEN 可以帮助模型更好地识别和处理那些在训练集中未出现过的新类别。
  • 视觉问答(VQA): 在视觉问答系统中,OGEN 可以提高模型对未知视觉概念的理解和回答能力。
  • 内容创作: 在自动内容生成领域,OGEN 可以帮助生成器理解并创作出新颖且多样化的内容。
  • 安全监控: 在安全监控系统中,OGEN 可以提高模型对异常行为的检测能力,即使这些行为在训练数据中未曾出现。

总的来说,OGEN 通过有效地模拟未知类别的特征和自适应地调整模型优化过程,显著提升了视觉 - 语言模型在开放域数据上的泛化能力。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-01-31发表,共计933字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码