美团浙大等发布移动端视觉语言助手MobileVLM

109次阅读

共计 291 个字符，预计需要花费 1 分钟才能阅读完成。

来自美团、浙大、大连理工的团队推出一款专为移动设备设计的视觉语言助手 MobileVLM，相关论文于 12 月 30 日发表于 arXiv 平台。据介绍，这是一种专门针对移动设备运行的多模态视觉语言模型，是无数面向移动的架构设计和技术的融合，其中包括一组从头开始训练的 1.4B 和 2.7B 参数规模的语言模型。根据几个典型的 VLM 基准评估，MobileVLM 表现出了与一些更大的模型同等的性能。团队测量了高通骁龙 888 CPU 和英伟达 Jeston Orin GPU 上的推理速度，分别获得了每秒 21.5 个 Token 和 65.3 个 Token 的最先进性能。