AI视觉评分Q-ALIGN：通过模拟人类评分者的主观过程来训练多模态模型（LMMs），从而提高了视觉评分任务的性能

浏览：204次阅读

共计 547 个字符，预计需要花费 2 分钟才能阅读完成。

由南洋理工大学、上海交通大学、商汤研究院团队提出了 Q -ALIGN 方法，它通过模拟人类评分者的主观过程来训练多模态模型（LMMs），从而提高了视觉评分任务的性能，特别是在处理分布外数据时的泛化能力。此外，通过 ONEALIGN 模型，论文展示了如何将不同的视觉评分任务统一到一个模型中，进一步证明了这种方法的有效性。

项目主页：https://q-align.github.io
GitHub 地址：https://github.com/Q-Future/Q-Align
Demo 地址：https://huggingface.co/spaces/teowu/OneScorer

Q-ALIGN 方法 (The Q-ALIGN):

方法论 (Methodology):

- - 解释了如何通过模拟人类评分过程来设计 Q -ALIGN 的课程大纲。
  - 讨论了人类评分者的训练过程、收集人类评分以及将评分转换为平均意见分数（MOS）的过程。

评分水平与分数之间的转换 (Conversion between Rating Levels and Scores):

- - - 描述了如何将现有数据集中的分数转换为离散评分水平，并在推理过程中如何从评分水平获取分数。

模型结构 (Model Structure):

- - 介绍了 Q -ALIGN 的模型结构，包括视觉编码器、视觉抽象器和语言指令。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-20

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

StabilityAI推出16亿参数规模的大语言模型Stable LM 2 1.6B