基于大学知识的多模态LLM测评基准MMMU发布

109次阅读
没有评论

共计 395 个字符,预计需要花费 1 分钟才能阅读完成。

11 月 29 日,据论文作者、美国俄亥俄州立大学(OSU)博士岳翔于社交平台 X 发文,其与来自 7 个机构的 20 多名研究人员共同发表论文,推出了 MMMU 基准测试。该测试收集了 11.5K 来自大学考试、测验和教科书的多模态问题,横跨艺术设计、商业、科学、健康与医学、人文社科、技术与工程等 30 个科目和 183 个子领域,覆盖图表、图表、地图、表格、乐谱和化学结构等 30 种异构图像类型,专注于利用特定领域知识进行高级感知和推理。论文测试了 14 个开源大模型以及 GPT-4V,测评显示,即使是先进的 GPT-4V 也只能达到 56% 的准确率。论文对 GPT-4V 的 150 个错误案例进行的错误分析表明,35% 的错误是感性的,29% 是由于缺乏知识,26% 是由于推理过程中的缺陷。

论文地址:https://arxiv.org/abs/2311.16502

项目主页:https://mmmu-benchmark.github.io

基于大学知识的多模态 LLM 测评基准 MMMU 发布

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-12-01发表,共计395字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码