由面壁智能与清华大学开发的能在手机端运行的端侧大模型MiniCPM

38次阅读
没有评论

共计 807 个字符,预计需要花费 3 分钟才能阅读完成。

MiniCPM 是一系列端侧语言大模型,主体语言模型 MiniCPM-2B 具有 2.4B 的 非词嵌入参数量 。在综合性榜单上与 Mistral-7B 相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。在当前最接近用户体感的榜单 MTBench 上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。MiniCPM 通过 Int4 量化技术,实现了模型的端侧部署能力。可以在手机等移动设备上运行,提供与人类说话速度相当的流式输出速度。( 详细介绍

GitHub 地址:https://github.com/OpenBMB/MiniCPM

主要特性:

1、优异的性能:MiniCPM 在多项公开的综合性评测集上展现了优秀的性能,特别是在中文、数学和编程能力方面,其整体性能超过了许多大型模型,如 Llama2-13B、MPT-30B 和 Falcon-40B。

2、多模态能力:基于 MiniCPM-2B 开发的多模态模型 MiniCPM-V,在同规模模型中表现最佳,超越了现有的多模态大模型,如 Phi- 2 构建的模型。

3、端侧部署:经过 Int4 量化处理后,MiniCPM 只占 2GB 空间,可以在手机上进行部署和推理,提供流畅的输出速度,略高于人类的说话速度。

4、资源高效利用:MiniCPM 支持在普通的 GPU 上进行高效的参数微调和全参数微调,这使得继续训练和二次开发的成本相对较低。即便是在资源有限的硬件上,也可以持续训练 MiniCPM 模型。

5、兼容性与灵活性:MiniCPM 模型兼容多种平台和框架,如 Huggingface Transformers 和 vLLM,为用户提供了灵活的使用选择。无论是进行文本生成、理解任务还是多模态任务处理,MiniCPM 都能提供强大的支持。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-02-08发表,共计807字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码