仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

清华大学等团队提出PRIME方法,仅用8张A100,在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME,准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题,有望推动复杂推理能力提升。

华为王辉:超大规模集群训推和网络自动驾驶,是AI在网络中深度应用的发展方向 MEET 2025

大模型浪潮下,AI与通信网络紧密相关。Network for AI涉及整合分散算力资源提升训练效率;AI For Network通过AI手段让网络更智能、可靠。华为NCE总裁王辉分享了网络与AI的关系,包括大模型训练中的挑战和解决方案。

斯坦福打脸大模型数学水平:题干一改就集体降智,强如o1也失准,能力涌现怕不是检索题库

斯坦福大学研究表明,在更换数学题变量名称后,大模型的准确率直线下降。即使是表现最好的o1-preview模型,其准确率也从50%降至33.96%,表明它们可能更多依赖已存储的答案而非推理能力。团队提出Putnam-AXIOM。该基准解决了现有评估基准数据污染和饱和的问题,为自动化评估提供方法并生成变体数据集。