3710亿数学Tokens!全球最大开源数学数据集MegaMath震撼发布,碾压DeepSeek-Math
指标。
近日,LLM360 推出了
MegaMath:全球目前最大的开源数学推理预训练数据集
,共计
指标。
近日,LLM360 推出了
MegaMath:全球目前最大的开源数学推理预训练数据集
,共计
MegaMath 是一个包含3710亿tokens的开源数学推理预训练数据集,覆盖网页、代码和高质量合成数据三大领域。它首次在规模上超越了DeepSeek-Math Corpus(120B),代表从‘只靠网页’到‘面向推理’的重大跨越。