共计 493 个字符,预计需要花费 2 分钟才能阅读完成。
阿里云公布多模态大模型研究进展,通义千问视觉理解模型 Qwen-VL 再次升级,继 Plus 版本之后推出 Max 版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩 OpenAI 的 GPT-4V 和谷歌的 Gemini Ultra。
演示地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max
GitHub 地址:https://github.com/QwenLM/Qwen-VL
相比 Qwen-VL,Qwen-VL-Plus 和 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力,整体性能堪比 GPT-4V 和 Gemini Ultra。在 MMMU、MathVista 等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越 GPT-4V,达到世界最佳水平。目前 Qwen-VL-Plus 和 Qwen-VL-Max 限时免费,用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型 API。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-30