“看图说话”能力突出!华中科技大学团队开源多模态大模型“Monkey”

139次阅读
没有评论

共计 909 个字符,预计需要花费 3 分钟才能阅读完成。

华中科技大学软件学院白翔教授领衔的 VLRLab 团队近期开源了一个高性能多模态大模型“Monkey”,该模型擅长图像描述和视觉问答,也就是“看图说话”,能够处理分辨率高达 1344 x 896 像素的图像,这是目前其他多模态大模型所能处理的最大尺寸的 6 倍。

“看图说话”能力突出!华中科技大学团队开源多模态大模型“Monkey”

VLRLab 团队表示在模型选择上,Monkey 模型采用了开源模型 Qwen-VL 作为语言解码器,以及 20 亿参数的 ViT-BigHuge 作为视觉编码器,在避免重复预训练、资源浪费的同时,又利用现有工具构建了一种多层级的描述生成方法,即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结,从而打出一套威力十足的“组合拳”,大幅提升了描述的准确性和丰富程度。白翔表示,Monkey 模型在医学影像、卫星图像等领域具有广泛的应用空间,团队将继续优化 Monkey 模型的感知、联想、推理和泛化能力,希望 Monkey 能成长为神通广大的“孙悟空”。

GitHub 地址:https://github.com/Yuliang-Liu/Monkey

Demo 地址:

http://27.17.184.224:7680(中文)

http://27.17.252.152:7681(英文)

模型地址:

https://www.wisemodel.cn/models/HUST-VLRLab/Monkey(国内访问)

https://huggingface.co/echo840/Monkey(国外访问)

“看图说话”能力突出!华中科技大学团队开源多模态大模型“Monkey”

该大模型使用非常简单,上传图片后点击生成即可看到图片的描述,从试用效果来看,准确度非常高;但对图片的提问,从回答来看效果并不是很好。

“看图说话”能力突出!华中科技大学团队开源多模态大模型“Monkey”

开发者也提供了在本地的安装方法,大家可以依照下面的方法进行安装,具体安装方法可以查看 GitHub 页面,不过此模型大家使用官方的 Demo 即可,不必在本地安装。

conda create -n monkey python=3.9
conda activate monkey
git clone https://github.com/Yuliang-Liu/Monkey.git
cd ./Monkey
pip install -r requirements.txt
python demo.py

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-12-13发表,共计909字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。