共计 317 个字符,预计需要花费 1 分钟才能阅读完成。
AutoMathText 是一个包含 200GB 的数学文本数据集,它是从包括各种网站、arXiv 和 GitHub(OpenWebMath, RedPajama, Algebraic Stack)在内的多样化平台汇编而成的,资源库是由最先进的开源语言模型 Qwen-72B 自主选择(标注)的。数据集中的每条内容都被分配了一个 lm_q1q2_score 分数,范围在 [0, 1] 之间,反映了其在数学智能背景下相关性的高低、质量的优劣和教育价值的大小。此数据集支持文本生成和问答等任务,特别适合用于开发和测试能够理解和生成数学相关内容的模型。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-31