通义千问视觉理解模型 Qwen-VL 升级版Qwen-VL-Max发布

51次阅读

共计 493 个字符，预计需要花费 2 分钟才能阅读完成。

阿里云公布多模态大模型研究进展，通义千问视觉理解模型 Qwen-VL 再次升级，继 Plus 版本之后推出 Max 版本，升级版模型拥有更强的视觉推理能力和中文理解能力，能够根据图片识人、答题、创作、写代码，并在多个权威测评中获得佳绩，比肩 OpenAI 的 GPT-4V 和谷歌的 Gemini Ultra。

演示地址：https://huggingface.co/spaces/Qwen/Qwen-VL-Max
GitHub 地址：https://github.com/QwenLM/Qwen-VL

相比 Qwen-VL，Qwen-VL-Plus 和 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力，整体性能堪比 GPT-4V 和 Gemini Ultra。在 MMMU、MathVista 等测评中远超业界所有开源模型，在文档分析（DocVQA）、中文图像相关（MM-Bench-CN）等任务上超越 GPT-4V，达到世界最佳水平。目前 Qwen-VL-Plus 和 Qwen-VL-Max 限时免费，用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力，也可以通过阿里云灵积平台（DashScope）调用模型 API。

正文完

关注公众号获取最新教程