共计 547 个字符,预计需要花费 2 分钟才能阅读完成。
由南洋理工大学、上海交通大学、商汤研究院团队提出了 Q -ALIGN 方法,它通过模拟人类评分者的主观过程来训练多模态模型(LMMs),从而提高了视觉评分任务的性能,特别是在处理分布外数据时的泛化能力。此外,通过 ONEALIGN 模型,论文展示了如何将不同的视觉评分任务统一到一个模型中,进一步证明了这种方法的有效性。
项目主页:https://q-align.github.io
GitHub 地址:https://github.com/Q-Future/Q-Align
Q-ALIGN 方法 (The Q-ALIGN):
方法论 (Methodology):
- 解释了如何通过模拟人类评分过程来设计 Q -ALIGN 的课程大纲。
- 讨论了人类评分者的训练过程、收集人类评分以及将评分转换为平均意见分数(MOS)的过程。
评分水平与分数之间的转换 (Conversion between Rating Levels and Scores):
- 描述了如何将现有数据集中的分数转换为离散评分水平,并在推理过程中如何从评分水平获取分数。
模型结构 (Model Structure):
- 介绍了 Q -ALIGN 的模型结构,包括视觉编码器、视觉抽象器和语言指令。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-20