基于LLaMA 2模型训练的新模型MaLA-500

54次阅读

共计 449 个字符，预计需要花费 2 分钟才能阅读完成。

MaLA-500 是一个基于 LLaMA 2 模型训练的新模型，旨在涵盖 534 种广泛的语言。该模型基于 LLaMA 2 7B 并集成了继续预训练与词汇扩展，拥有扩展后的词汇量 260,164，并采用了 LoRA 低秩适应。该模型使用了 Glot500- c 语料库，这是一个包含 534 种语言的大规模多语言语料库。MaLA-500 在 SIB-200 数据集上的实验结果显示，它在上下文学习任务中取得了最先进的结果。