一手实测让马斯克睡帐篷的Grok4,DeepSeekR2又多一位可笑的对手

马斯克的Grok4发布会因推迟和低效表现引发关注。尽管新套餐价格高昂,但其在数学、物理等领域表现亮眼,但在代码编写和多模态任务上存在局限性。作者分享了使用基础版Grok4的经验,并提出了一些改进意见。

大模型“拼好题”,45K数据撬动18%提升,数学问题拒绝死记硬背  MathFusion

MathFusion团队提出了一种新的方法,通过指令融合增强大语言模型解决数学问题的能力。仅使用45K的合成指令,在多个基准测试中平均准确率提升了18.0个百分点。MathFusion通过顺序、并列和条件三种融合策略将不同数学问题巧妙结合生成新问题,显著提升模型性能与数据效率,并在in-domain和out-of-domain基准测试中均表现出优越表现。