新加坡科技设计大学团队提出11亿参数小模型TinyLlama

浏览：210次阅读

共计 280 个字符，预计需要花费 1 分钟才能阅读完成。

来自新加坡科技设计大学（SUTD）StatNLP 组的团队 5 日在 arXiv 上发表论文，提出 11 亿参数的小型语言模型 TinyLlama，其在大约 1 万亿个 Token 上进行了 3 轮预训练。TinyLlama 以 Meta 的 Llama 2 架构和分词器为基础，基于开源社区的 FlashAttention 等技术，使用 16 块 A100-40G GPU 训练 90 天得到，适用于需要限制计算和内存占用的多种应用，相关代码已开源。