完全开源的大语言模型OLMo

浏览：181次阅读

共计 894 个字符，预计需要花费 3 分钟才能阅读完成。

非盈利机构 AllenAI 正式推出完全开源的大语言模型 OLMo，此次开源不仅有模型还包括完整的训练代码、数据集和评估代码，官方宣布通过开放研究来加速语言模型科学的发展。首次发布的内容包括四个参数规模达到 70 亿的语言模型，这些模型具有不同的架构、优化器和训练硬件，另外还有一个参数规模为 10 亿的模型。所有这些模型都在至少 2 万亿个 token 上接受了训练。值得一提是 OLMo 为了打破英伟达 AI 显卡的垄断，特地在 AMD 和英伟达 AI 显卡上都训练了一次，证明大模型训练是可以用 AMD 的显卡。

模型地址：https://huggingface.co/allenai
官方说明：https://blog.allenai.org/olmo-open-language-model-87ccfc95f580

主要特点 ：

开放性 ：OLMo 模型和框架完全开放，包括训练数据、代码和模型权重，这有助于研究人员和开发者共同进步。
多样性 ：提供了不同架构、优化器和训练硬件的多个模型变体，以及不同规模的模型（如 1B 和 7B 参数规模）。
数据集 ：使用了名为 Dolma 的预训练数据集，这是一个包含 3 万亿个标记的多源语料库，涵盖了多种类型的文本数据。
评估工具 ：提供了 Catwalk 和 Paloma 等评估工具，用于下游任务评估和基于困惑度的评估。
环境友好 ：在训练过程中考虑了能源消耗和碳足迹，使用了部分可再生能源。

工作原理 ：OLMo 模型基于 Transformer 架构，采用了一些改进，如无偏置项、非参数层归一化、SwiGLU 激活函数、旋转位置嵌入（RoPE）等。这些改进旨在提高模型的训练稳定性和性能。模型通过在大规模数据集上进行预训练，学习语言的模式和结构，然后可以通过微调（fine-tuning）来适应特定的任务或领域。

具体应用场景 ：OLMo 可以应用于多种自然语言处理（NLP）任务，如文本生成、问答系统、机器翻译、文本摘要等。由于其开放性，它也鼓励研究人员探索新的应用场景，如改进模型的偏见和风险评估，以及开发新的预训练方法。此外，OLMo 的开放性还允许开发者和企业在遵守 Apache 2.0 许可的情况下，将模型集成到他们的产品和服务中。

正文完

关注公众号获取最新教程

发表至：无分类

2024-02-02

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

谷歌Bard新动态