共计 2435 个字符,预计需要花费 7 分钟才能阅读完成。
视觉语言模型(VLMs)已经展现出在响应图像时生成类似人类文本的显著能力,其中包括 GPT-4、Gemini、PaLiGemma、LLaVA 和 Llama 3 Vision 模型。然而,这些模型经常生成缺乏对参考图像适当依据的虚构内容,这突显了它们输出可靠性的一个关键缺陷。检测和防止这种虚构内容的需求要求有效的奖励模型(RMs)来进行评估和改进。当前的基于二分类的 RMs 只为整个输出提供单分数评估,严重限制了它们的可解释性和粒度。这种粗略的评估方法掩盖了决策过程,使得开发者难以确定改进的具体领域,并在 VLM 性能上实施针对性的增强。
现有方法的局限性
之前的尝试主要集中在基于人类反馈的强化学习(RLHF)技术上,这些技术已成功提升了 ChatGPT 和 LLaMA 3 等语言模型。这些方法通常涉及在人类偏好数据上训练奖励模型,并使用 Proximal Policy Optimization(PPO)或 Direct Policy Optimization(DPO)等算法进行策略学习。尽管在过程奖励模型和逐步奖励模型方面取得了一些进展,但现有解决方案在检测虚构内容方面主要限于语言领域,并在句子级别粒度上操作。其他方法探讨了通过人类注释生成合成数据和硬负挖掘、基于启发式的方法以及结合自动生成和手动验证的混合方法。然而,这些方法尚未充分解决在 VLM 中表示和评估视觉特征的核心挑战,这仍然是开发更可靠的视觉 - 语言基础模型的一个重要瓶颈。
TLDR 模型的创新
来自 Meta 和南加州大学的研究人员引入了 Token-Level Detective Reward(TLDR)模型,通过提供逐令牌评估而不是单分数评估,代表了对 VLM 输出评估的一个突破。这种细粒度的方法能够精确识别生成文本中的虚构内容和错误,对于能够快速识别和纠正特定问题段落的标注者来说尤其有价值。
论文地址:https://arxiv.org/abs/2410.04734
TLDR 是一种为大型视觉语言模型(VLMs)提供细粒度注释的奖励模型。TLDR 模型旨在通过评估并为每个文本标记分配奖励,而不是对整个序列进行评估,从而提高模型的可解释性和粒度。

例如,考虑一个图像描述任务,模型需要根据输入图像生成描述性文本。传统的奖励模型可能会给出整体的评分,而 TLDR 模型则会对生成的每个单词或短语进行评估,指出哪些部分是准确的,哪些部分是错误或与图像不匹配的。
主要功能
- 细粒度评估:TLDR 模型对每个文本标记进行评估,而不是整个序列,提供了更细致的反馈。
- 自我修正:利用 TLDR 模型的细粒度反馈,模型可以自我修正生成的文本,提高与图像的一致性。
- 幻觉评估:TLDR 模型可以用来计算模型的幻觉率,即生成与图像不匹配的文本的比例。
主要特点
- 可解释性:TLDR 模型提供了更清晰的模型输出评估,使得人类更容易诊断和改进性能。
- 视觉基础:TLDR 模型结合了多模态线索,更好地评估模型性能,确保视觉和文本信号都被考虑在内。
- 自我修正能力:TLDR 模型的细粒度反馈可以帮助模型更精确地识别错误来源,并进行自我修正。
工作原理
TLDR 模型通过以下步骤工作:
- 数据生成:使用扰动方法生成合成的困难负样本及其标记级别的标签,用于训练 TLDR 模型。
- 模型训练:使用特定的架构(如 PaliGemma-3B-Mix-448)训练 TLDR 模型,使其能够对每个文本标记进行评估。
- 评估与修正:TLDR 模型评估生成的文本,识别出与图像不匹配的标记,并指导模型进行修正。
实验设置和评估
TLDR 模型在处理由图像、用户文本提示和文本响应组成的多模态查询 - 响应实例时运行。性能通过三种不同的准确性指标进行评估:
- 令牌级准确性:用于单个令牌评估。
- 句子级准确性:用于评估连贯的文本段。
- 响应级准确性:用于整体输出评估。
为了解决数据稀缺和粒度问题,系统采用了复杂的合成数据生成技术,特别是专注于密集字幕和视觉问题回答任务。通过使用大型语言模型进行系统扰动过程,训练数据得到了增强,专门针对八个关键分类:空间关系、视觉属性、属性绑定、对象识别、计数、小物体检测、文本 OCR 和反事实场景。
实验结果
当在 DOCCI 数据集的合成数据上测试时,TLDR 模型在多个评估指标上显示出稳健的性能。性能分析显示,与传统的二分类奖励模型相比,响应级准确性略胜一筹,达到了显著的 41.3 mAP(neg)分数。详细的分类分解表明,在空间关系评估方面存在特别挑战,这与当前 VLM 技术的已知局限性一致。对 WinoGround 图像上的令牌级预测进行的人类评估,专注于假阴性,显示了一个适度的句子级假阴性率 8.7%。
实际应用
TLDR 在包括 Llama-3.2-Vision、GPT- 4 变体、MiniCPM、PaLiGemma 和 Phi 3.5 Vision 等各种领先的 VLM 上全面检测虚构内容,显示出其有效性。GPT-4o 在所有粒度级别上的虚构率最低,成为顶级表现者。模型的有用性延伸到实际应用,如对 PixelProse 数据集的分析所示,其中它在 22.39% 的标题中识别出了虚构的令牌,令牌级和句子级的虚构率分别为 0.83% 和 5.23%。
- 图像描述任务:在图像描述任务中,TLDR 模型可以评估和改进模型生成的描述,使其更准确地反映图像内容。
- 视觉问题回答(VQA):在 VQA 任务中,TLDR 模型可以用来评估模型给出的答案,提高答案的准确性和可靠性。
- 数据标注加速:TLDR 模型可以加快人类标注者修正模型生成的文本的速度,从而以更低的成本创建大量高质量的视觉语言数据。
结论
Token-Level Detective Reward(TLDR)模型通过其细粒度的令牌级注释能力,在评估和改进视觉语言模型方面代表了一个重大进步。TLDR 不仅识别错误,而且精确定位具体问题区域,使有效的自我纠正和检测虚构内容成为可能。模型的有效性延伸到实际应用,作为一种似然优化方法,并促进了更快的人类注释过程。这种创新方法为高级令牌级 DPO 和 PPO 后训练方法奠定了基础,标志着 VLM 发展中的一个重要步骤。
相关文章
相关文章
