200GB 的数学文本数据集AutoMathText

52次阅读
没有评论

共计 317 个字符,预计需要花费 1 分钟才能阅读完成。

AutoMathText 是一个包含 200GB 的数学文本数据集,它是从包括各种网站、arXiv 和 GitHub(OpenWebMath, RedPajama, Algebraic Stack)在内的多样化平台汇编而成的,资源库是由最先进的开源语言模型 Qwen-72B 自主选择(标注)的。数据集中的每条内容都被分配了一个 lm_q1q2_score 分数,范围在 [0, 1] 之间,反映了其在数学智能背景下相关性的高低、质量的优劣和教育价值的大小。此数据集支持文本生成和问答等任务,特别适合用于开发和测试能够理解和生成数学相关内容的模型。

数据集下载:https://huggingface.co/datasets/math-ai/AutoMathText

200GB 的数学文本数据集 AutoMathText

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-31发表,共计317字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码