多模态大模型LLaVA 发布 1.6 版本

88次阅读

共计 504 个字符，预计需要花费 2 分钟才能阅读完成。

多模态大模型 LLaVA 发布 1.6 版本，比之前的 1.5 版本能力大幅提升。LLaVA-1.6 甚至在几个基准测试中超过了 Gemini Pro。

项目主页：https://llava-vl.github.io/blog/2024-01-30-llava-1-6
Demo 地址：https://llava.hliu.cc
GitHub 地址：https://github.com/haotian-liu/LLaVA

与 LLaVA-1.5 相比，LLaVA-1.6 有以下几个改进：

将输入图像分辨率提高了 4 倍。这使得它能捕捉到更多的视觉细节。支持三种宽高比，最高分辨率为 672×672、336×1344、1344×336。
通过改进的视觉指令调整数据混合，提高了视觉推理和 OCR 能力。
为更多场景提供更好的视觉对话，涵盖不同的应用。改进了世界知识和逻辑推理。
使用 SGLang 实现高效部署和推理。
除了性能提升外，LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率。它重用了 LLaVA-1.5 的预训练连接器，并且仍然使用不到 1M 的视觉指令调整样本。最大的 34B 变体在约 1 天内使用 32 个 A100 完成训练。代码、数据和模型将会公开可用。

正文完

关注公众号获取最新教程