旷视科技发布小型视觉语言模型Vary-toy，单个GTX1080ti就可以运行

52次阅读

共计 1054 个字符，预计需要花费 3 分钟才能阅读完成。

旷视科技发布了一个名为 Vary-toy 的小型视觉语言模型，它可以在仅使用单个 GTX1080ti 显卡的情况下，体验到当前大型的视觉语言模型所具有的所有功能。Vary-toy 基于 1.8B 参数的 Qwen-1.8B 语言模型，并引入了一个改进的视觉词汇表，使得模型不仅具备 Vary 的所有功能，还能更有效地编码自然对象的视觉信息。实验结果显示，Vary-toy 在 DocVQA、ChartQA、RefCOCO 和 MMVet 等数据集上取得了不错的性能，证明了其在文档 OCR、图像标题、VQA、日常对话等方面的潜力。

项目主页：https://varytoy.github.io
GitHub 地址：https://github.com/Ucas-HaoranWei/Vary-toy
Demo 地址：https://vary.xiaomy.net

模型特点 ：

小型化 ：Vary-toy 相比其他流行的 LVLM（如 7B 参数模型）要小得多，这使得它能够在消费级 GPU（如 GTX1080ti）上进行训练和部署。
改进的视觉词汇表 ：通过在生成视觉词汇的过程中使用对象检测数据，Vary-toy 能够更充分地利用词汇网络的容量，有效地编码与自然对象相对应的视觉信息。
多任务性能 ：Vary-toy 在多种下游任务中表现出色，包括文档 OCR、图像描述、VQA、一般对话等。
通用性 ：Vary-toy 在多个领域展示了其通用性，包括文本感知、对象定位和一般知识。

实现方法 ：

视觉词汇生成 ：Vary-toy 利用 Vary-tiny+ 管道生成新的视觉词汇，这个过程包括处理 PDF 图像 - 文本对和对象检测数据。PDF 数据用于密集文本 OCR，而对象检测数据则用于增强模型对自然图像中对象的感知能力。
模型架构 ：Vary-toy 遵循 Vary 的架构，但在视觉词汇网络中进行了调整，使其能够处理 1024×1024 分辨率的图像，同时与 CLIP 分支结合，后者处理 224×224 分辨率的图像。
数据准备 ：在预训练阶段，Vary-toy 使用了多种类型的数据，包括弱标注图像 - 文本对、PDF 图像 - 文本对、对象检测数据、纯文本对话数据和 VQA 数据。所有数据都以对话格式重新组织。
训练过程 ：Vary-toy 在预训练和微调（SFT）阶段进行了多任务训练。在预训练阶段，模型在多种数据上进行训练，而在 SFT 阶段，仅使用 LLaVA-80K 数据集进行指令调整。

Vary-toy 的这些特点和实现方法使其成为一个在资源有限的情况下进行视觉语言任务研究的实用基线，同时也鼓励研究人员在更多下游任务中利用其改进的视觉词汇。

正文完

关注公众号获取最新教程