共计 395 个字符,预计需要花费 1 分钟才能阅读完成。
11 月 29 日,据论文作者、美国俄亥俄州立大学(OSU)博士岳翔于社交平台 X 发文,其与来自 7 个机构的 20 多名研究人员共同发表论文,推出了 MMMU 基准测试。该测试收集了 11.5K 来自大学考试、测验和教科书的多模态问题,横跨艺术设计、商业、科学、健康与医学、人文社科、技术与工程等 30 个科目和 183 个子领域,覆盖图表、图表、地图、表格、乐谱和化学结构等 30 种异构图像类型,专注于利用特定领域知识进行高级感知和推理。论文测试了 14 个开源大模型以及 GPT-4V,测评显示,即使是先进的 GPT-4V 也只能达到 56% 的准确率。论文对 GPT-4V 的 150 个错误案例进行的错误分析表明,35% 的错误是感性的,29% 是由于缺乏知识,26% 是由于推理过程中的缺陷。
正文完
关注公众号获取最新教程
发表至:无分类
2023-12-01