共计 280 个字符,预计需要花费 1 分钟才能阅读完成。
来自新加坡科技设计大学(SUTD)StatNLP 组的团队 5 日在 arXiv 上发表论文,提出 11 亿参数的小型语言模型 TinyLlama,其在大约 1 万亿个 Token 上进行了 3 轮预训练。TinyLlama 以 Meta 的 Llama 2 架构和分词器为基础,基于开源社区的 FlashAttention 等技术,使用 16 块 A100-40G GPU 训练 90 天得到,适用于需要限制计算和内存占用的多种应用,相关代码已开源。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-09