新加坡科技设计大学团队提出11亿参数小模型TinyLlama

97次阅读
没有评论

共计 280 个字符,预计需要花费 1 分钟才能阅读完成。

来自新加坡科技设计大学(SUTD)StatNLP 组的团队 5 日在 arXiv 上发表论文,提出 11 亿参数的小型语言模型 TinyLlama,其在大约 1 万亿个 Token 上进行了 3 轮预训练。TinyLlama 以 Meta 的 Llama 2 架构和分词器为基础,基于开源社区的 FlashAttention 等技术,使用 16 块 A100-40G GPU 训练 90 天得到,适用于需要限制计算和内存占用的多种应用,相关代码已开源。

论文地址:http://arxiv.org/pdf/2401.02385.pdf

开源地址:https://github.com/jzhang38/TinyLlama

新加坡科技设计大学团队提出 11 亿参数小模型 TinyLlama

 

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-09发表,共计280字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码