复旦大学团队推出的多模态大模型复旦·眸思(MouSi)

72次阅读
没有评论

共计 685 个字符,预计需要花费 2 分钟才能阅读完成。

复旦大学团队推出的多模态大模型复旦·眸思(MouSi),它通过集成多个视觉专家来增强模型对复杂视觉信息的处理能力。这些视觉专家各自擅长不同的视觉任务,如图像文本匹配、光学字符识别(OCR)、图像分割等。眸思模型的设计灵感来源于生物视觉系统的多通道并行处理机制,旨在通过协同这些专家的能力来提升 VLM 的整体性能。

GitHub 地址:https://github.com/FudanNLPLAB/MouSi

官方 Demo:http://mousi.org

复旦大学团队推出的多模态大模型复旦·眸思(MouSi)

主要特点:

  • 多视觉专家集成 :MouSi 模型结合了多个视觉编码器,每个编码器都有其独特的视觉处理能力,这样可以从不同角度理解和处理图像信息。
  • 融合网络 :为了整合不同视觉专家的输出,MouSi 引入了一个融合网络,这个网络可以统一处理来自不同专家的视觉信息,并与预训练的大型语言模型(LLM)对齐。
  • 位置编码优化 :MouSi 通过探索不同的位置编码方案来解决由于图像特征序列过长而导致的位置编码浪费问题,有效减少了模型中位置编码的使用。

工作原理:

  • 多专家视觉编码器 :MouSi 选择了六种不同的视觉编码器,包括 CLIP、DINOv2、LayoutLMv3、Convnext、SAM 和 MAE,每种编码器都有其特定的输入分辨率、隐藏维度、模型类型和预训练任务。
  • 融合网络 :MouSi 采用了多层感知器(MLP)投影融合网络和 Q -Former 融合网络,这两种方法可以有效地将来自不同视觉专家的信息整合到一起。
  • 位置编码方案 :为了减少位置编码的占用,MouSi 探索了四种不同的方案,包括为所有补丁共享一个位置编码、按行共享位置编码以及结合行和列的位置编码。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-02-01发表,共计685字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码