数学问题
一手实测让马斯克睡帐篷的Grok4,DeepSeekR2又多一位可笑的对手
马斯克的Grok4发布会因推迟和低效表现引发关注。尽管新套餐价格高昂,但其在数学、物理等领域表现亮眼,但在代码编写和多模态任务上存在局限性。作者分享了使用基础版Grok4的经验,并提出了一些改进意见。
InftyThink:浙大联合北大打造的无限深度推理范式,突破大模型长推理瓶颈
浙江大学和北京大学联合推出InftyThink模型,通过分段迭代推理和中间总结突破传统长推理任务限制,显著降低计算复杂度并保持推理准确性和效率。
大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背 MathFusion
MathFusion团队提出了一种新的方法,通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令,在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题,显著提升模型性能与数据效率,并在in-domain和out-of-domain基准测试中均表现出优越表现。
皮尤报告:Z世代正在用ChatGPT来完成学业,26%人使用过
皮尤研究中心调查发现,约1400名美国青少年中有26%使用了OpenAI的ChatGPT完成学业任务。不过他们对这项技术缺陷的认识有限。