重大突破!微软发布“自我进化”,帮小模型超OpenAI-o1 下午12时 2025/01/10 作者 AIGC开放社区 Microsoft亚洲研究院发布的rStar-Math通过代码增强CoT、蒙特卡洛树搜索等方法提升小模型数学推理能力,平均在AIME 2024测试中解决了53.3%的难题,并显著提升了多个数学基准测试的表现。
微软亚洲研究院发布MMLU-CF:无污染的大语言模型理解基准来了! 下午8时 2024/12/26 作者 PaperWeekly 微软亚洲研究院推出MMLU-CF,一个基于公开数据源且去污染设计的大语言模型理解基准,旨在提供更为准确、公平的评估。