LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710 亿(371B)tokens,覆盖网页、代码和高质量合成数据三大领域。


参考文献:
[1] 报告标题:MegaMath: Pushing the Limits of Open Math Corpora
[2] 技术报告:https://arxiv.org/abs/2504.02807
[3] 数据集地址:https://hf.co/datasets/LLM360/MegaMath
[4] GitHub 代码:https://github.com/LLM360/MegaMath
(文:NLP工程化)
是360搞得不?