新型基准测试CONTEXTUA

52次阅读

共计 1094 个字符，预计需要花费 3 分钟才能阅读完成。

加州大学洛杉矶分校团队推出新型基准测试 CONTEXTUAL，旨在评估大型多模态模型（LMMs）在执行与文本和视觉内容相结合的上下文敏感型视觉推理任务方面的能力。CONTEXTUAL 强调了多样化的真实世界场景，如时间读取、导航、购物等，这些场景要求模型对文本和视觉元素之间的交互有更深入的理解。研究结果揭示了在 CONTEXTUAL 数据集上，表现最佳的 LMM（GPT-4V）与人类能力之间存在显著的性能差距，表明在上下文敏感型文本丰富的视觉推理方面，现有模型还有很大的提升空间。

项目主页：https://con-textual.github.io
GitHub 地址：https://github.com/rohan598/ConTextual
排行：https://con-textual.github.io/#leaderboard

特点：

多样化的场景 ：CONTEXTUAL 数据集涵盖了多种真实世界场景，包括时间读取、导航、购物、抽象场景、移动应用、网页、信息图表和杂项自然场景，这使得模型能够在多种上下文中进行评估。
上下文敏感性 ：数据集中的指令要求模型不仅要识别图像中的文本，还要理解文本与视觉内容的交互，这超出了仅依赖于图像中文本识别（OCR）的模型的能力。
人类评估与自动评估 ：除了使用人类评估来确定模型响应的正确性，研究还采用了基于 GPT- 4 的自动评估方法，以揭示性能差异的相似趋势。
细粒度评估 ：研究提供了对不同视觉上下文和任务复杂度下模型性能的详细分析，为未来 LMM 设计的进步提供了一个坚实的框架。

实现方法：

数据收集 ：CONTEXTUAL 数据集包含了 506 个样本，这些样本来自不同的图像源，如 LAION-5B、Rico Dataset、Open WebText Initiative 等。数据集的构建遵循了特定的收集指南，确保了样本的多样性和复杂性。
数据标注 ：研究采用了三阶段的标注过程，包括筛选图像、创建指令 - 响应对以及验证样本。这个过程确保了数据集的质量和一致性。
模型评估 ：研究评估了 13 个基础模型，包括增强型大型语言模型（如 GPT-4）、专有的 LMMs（如 GPT-4V 和 Gemini-Pro-Vision）以及开源 LMMs。评估包括零样本（zero-shot）和少量样本（few-shot）设置。
性能分析 ：通过人类评估和自动评估方法，研究分析了模型在 CONTEXTUAL 数据集上的性能，并与人类表现进行了比较。此外，还进行了细粒度的评估，以理解模型在不同视觉场景下的性能差异。

总的来说，CONTEXTUAL 基准测试为评估和改进 LMMs 在处理复杂视觉和文本任务方面的能力提供了一个全面的框架。

正文完

关注公众号获取最新教程