基于大学知识的多模态LLM测评基准MMMU发布

浏览：243次阅读

共计 395 个字符，预计需要花费 1 分钟才能阅读完成。

11 月 29 日，据论文作者、美国俄亥俄州立大学（OSU）博士岳翔于社交平台 X 发文，其与来自 7 个机构的 20 多名研究人员共同发表论文，推出了 MMMU 基准测试。该测试收集了 11.5K 来自大学考试、测验和教科书的多模态问题，横跨艺术设计、商业、科学、健康与医学、人文社科、技术与工程等 30 个科目和 183 个子领域，覆盖图表、图表、地图、表格、乐谱和化学结构等 30 种异构图像类型，专注于利用特定领域知识进行高级感知和推理。论文测试了 14 个开源大模型以及 GPT-4V，测评显示，即使是先进的 GPT-4V 也只能达到 56% 的准确率。论文对 GPT-4V 的 150 个错误案例进行的错误分析表明，35% 的错误是感性的，29% 是由于缺乏知识，26% 是由于推理过程中的缺陷。