数学问题归档

Grok-4 的系统提示词

2025年7月11日8时作者 NLP工程化

Grok-4 是由 xAI 创建的助手，能够处理用户关于 X 的各种请求，包括分析用户和内容，并提供关于 xAI 产品和服务的信息。

ICML 2025 会刷题≠懂数学！CogMath打造“认知显微镜”，深扒大模型的数学能力

2025年7月7日23时作者 PaperWeekly

频繁刷榜，关于它们“是否真正理解数学”的讨论也日益增多。
针对这一问题，中国科学技术大学认知智能全国

InftyThink：浙大联合北大打造的无限深度推理范式，突破大模型长推理瓶颈

2025年6月24日14时作者小兵的AI视界

浙江大学和北京大学联合推出InftyThink模型，通过分段迭代推理和中间总结突破传统长推理任务限制，显著降低计算复杂度并保持推理准确性和效率。

大模型“拼好题”，45K数据撬动18%提升，数学问题拒绝死记硬背 MathFusion

2025年6月17日16时作者量子位

MathFusion团队提出了一种新的方法，通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令，在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题，显著提升模型性能与数据效率，并在in-domain和out-of-domain基准测试中均表现出优越表现。