“看图说话”能力突出！华中科技大学团队开源多模态大模型“Monkey”

211次阅读

共计 909 个字符，预计需要花费 3 分钟才能阅读完成。

华中科技大学软件学院白翔教授领衔的 VLRLab 团队近期开源了一个高性能多模态大模型“Monkey”，该模型擅长图像描述和视觉问答，也就是“看图说话”，能够处理分辨率高达 1344 x 896 像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的 6 倍。

VLRLab 团队表示在模型选择上，Monkey 模型采用了开源模型 Qwen-VL 作为语言解码器，以及 20 亿参数的 ViT-BigHuge 作为视觉编码器，在避免重复预训练、资源浪费的同时，又利用现有工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，从而打出一套威力十足的“组合拳”，大幅提升了描述的准确性和丰富程度。白翔表示，Monkey 模型在医学影像、卫星图像等领域具有广泛的应用空间，团队将继续优化 Monkey 模型的感知、联想、推理和泛化能力，希望 Monkey 能成长为神通广大的“孙悟空”。

GitHub 地址：https://github.com/Yuliang-Liu/Monkey

Demo 地址：

http://27.17.184.224:7680（中文）

http://27.17.252.152:7681（英文）

模型地址：

https://www.wisemodel.cn/models/HUST-VLRLab/Monkey（国内访问）

https://huggingface.co/echo840/Monkey（国外访问）

该大模型使用非常简单，上传图片后点击生成即可看到图片的描述，从试用效果来看，准确度非常高；但对图片的提问，从回答来看效果并不是很好。

开发者也提供了在本地的安装方法，大家可以依照下面的方法进行安装，具体安装方法可以查看 GitHub 页面，不过此模型大家使用官方的 Demo 即可，不必在本地安装。

conda create -n monkey python=3.9
conda activate monkey
git clone https://github.com/Yuliang-Liu/Monkey.git
cd ./Monkey
pip install -r requirements.txt
python demo.py

正文完

关注公众号获取最新教程