LLM360团队推出全球最大数学数据集

LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。

参考文献:
[1] 报告标题:MegaMath: Pushing the Limits of Open Math Corpora

[2] 技术报告:https://arxiv.org/abs/2504.02807

[3] 数据集地址:https://hf.co/datasets/LLM360/MegaMath

[4] GitHub 代码:https://github.com/LLM360/MegaMath


(文:NLP工程化)

《LLM360团队推出全球最大数学数据集》有1条评论

发表评论