多模态大模型LLaVA 发布 1.6 版本

84次阅读
没有评论

共计 504 个字符,预计需要花费 2 分钟才能阅读完成。

多模态大模型 LLaVA 发布 1.6 版本,比之前的 1.5 版本能力大幅提升。LLaVA-1.6 甚至在几个基准测试中超过了 Gemini Pro。

项目主页:https://llava-vl.github.io/blog/2024-01-30-llava-1-6

Demo 地址:https://llava.hliu.cc

GitHub 地址:https://github.com/haotian-liu/LLaVA

多模态大模型 LLaVA 发布 1.6 版本

与 LLaVA-1.5 相比,LLaVA-1.6 有以下几个改进:

  • 将输入图像分辨率提高了 4 倍。这使得它能捕捉到更多的视觉细节。支持三种宽高比,最高分辨率为 672×672、336×1344、1344×336。
  • 通过改进的视觉指令调整数据混合,提高了视觉推理和 OCR 能力。
  • 为更多场景提供更好的视觉对话,涵盖不同的应用。改进了世界知识和逻辑推理。
  • 使用 SGLang 实现高效部署和推理。
  • 除了性能提升外,LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率。它重用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调整样本。最大的 34B 变体在约 1 天内使用 32 个 A100 完成训练。代码、数据和模型将会公开可用。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-02-01发表,共计504字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码