通义千问视觉理解模型 Qwen-VL 升级版Qwen-VL-Max发布

51次阅读
没有评论

共计 493 个字符,预计需要花费 2 分钟才能阅读完成。

阿里云公布多模态大模型研究进展,通义千问视觉理解模型 Qwen-VL 再次升级,继 Plus 版本之后推出 Max 版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩 OpenAI 的 GPT-4V 和谷歌的 Gemini Ultra。

演示地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

GitHub 地址:https://github.com/QwenLM/Qwen-VL

通义千问视觉理解模型 Qwen-VL 升级版 Qwen-VL-Max 发布

相比 Qwen-VL,Qwen-VL-Plus 和 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力,整体性能堪比 GPT-4V 和 Gemini Ultra。在 MMMU、MathVista 等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越 GPT-4V,达到世界最佳水平。目前 Qwen-VL-Plus 和 Qwen-VL-Max 限时免费,用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型 API。

通义千问视觉理解模型 Qwen-VL 升级版 Qwen-VL-Max 发布

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-30发表,共计493字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码