共计 504 个字符,预计需要花费 2 分钟才能阅读完成。
多模态大模型 LLaVA 发布 1.6 版本,比之前的 1.5 版本能力大幅提升。LLaVA-1.6 甚至在几个基准测试中超过了 Gemini Pro。
项目主页:https://llava-vl.github.io/blog/2024-01-30-llava-1-6
Demo 地址:https://llava.hliu.cc
GitHub 地址:https://github.com/haotian-liu/LLaVA
与 LLaVA-1.5 相比,LLaVA-1.6 有以下几个改进:
- 将输入图像分辨率提高了 4 倍。这使得它能捕捉到更多的视觉细节。支持三种宽高比,最高分辨率为 672×672、336×1344、1344×336。
- 通过改进的视觉指令调整数据混合,提高了视觉推理和 OCR 能力。
- 为更多场景提供更好的视觉对话,涵盖不同的应用。改进了世界知识和逻辑推理。
- 使用 SGLang 实现高效部署和推理。
- 除了性能提升外,LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率。它重用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调整样本。最大的 34B 变体在约 1 天内使用 32 个 A100 完成训练。代码、数据和模型将会公开可用。
正文完
关注公众号获取最新教程
发表至:无分类
2024-02-01