AI视觉评分Q-ALIGN:通过模拟人类评分者的主观过程来训练多模态模型(LMMs),从而提高了视觉评分任务的性能

54次阅读
没有评论

共计 547 个字符,预计需要花费 2 分钟才能阅读完成。

由南洋理工大学、上海交通大学、商汤研究院团队提出了 Q -ALIGN 方法,它通过模拟人类评分者的主观过程来训练多模态模型(LMMs),从而提高了视觉评分任务的性能,特别是在处理分布外数据时的泛化能力。此外,通过 ONEALIGN 模型,论文展示了如何将不同的视觉评分任务统一到一个模型中,进一步证明了这种方法的有效性。

项目主页:https://q-align.github.io

GitHub 地址:https://github.com/Q-Future/Q-Align

Demo 地址:https://huggingface.co/spaces/teowu/OneScorer

AI 视觉评分 Q -ALIGN:通过模拟人类评分者的主观过程来训练多模态模型(LMMs),从而提高了视觉评分任务的性能

Q-ALIGN 方法 (The Q-ALIGN):

方法论 (Methodology):

      • 解释了如何通过模拟人类评分过程来设计 Q -ALIGN 的课程大纲。
      • 讨论了人类评分者的训练过程、收集人类评分以及将评分转换为平均意见分数(MOS)的过程。

评分水平与分数之间的转换 (Conversion between Rating Levels and Scores):

        • 描述了如何将现有数据集中的分数转换为离散评分水平,并在推理过程中如何从评分水平获取分数。

模型结构 (Model Structure):

      • 介绍了 Q -ALIGN 的模型结构,包括视觉编码器、视觉抽象器和语言指令。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-20发表,共计547字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码