基于LLaMA 2模型训练的新模型MaLA-500

9次阅读
没有评论

共计 449 个字符,预计需要花费 2 分钟才能阅读完成。

MaLA-500 是一个基于 LLaMA 2 模型训练的新模型,旨在涵盖 534 种广泛的语言。该模型基于 LLaMA 2 7B 并集成了继续预训练与词汇扩展,拥有扩展后的词汇量 260,164,并采用了 LoRA 低秩适应。该模型使用了 Glot500- c 语料库,这是一个包含 534 种语言的大规模多语言语料库。MaLA-500 在 SIB-200 数据集上的实验结果显示,它在上下文学习任务中取得了最先进的结果。

模型地址:https://huggingface.co/MaLA-LM/mala-500

基于 LLaMA 2 模型训练的新模型 MaLA-500

特点:

  • 多语言覆盖: MaLA-500 能够理解和生成多种语言的文本,这对于多语言自然语言处理(NLP)任务尤为重要。
  • 上下文学习能力: 模型在 SIB-200 数据集上的评估表明,它在少样本(few-shot)学习任务中表现出色,这表明模型能够快速适应新的语言和任务。
  • 资源效率: 通过继续预训练(continual pretraining)和低秩重参数化(LoRA)技术,MaLA-500 在保持参数效率的同时,提高了模型的适应性和训练效率。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-28发表,共计449字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码