看好了,这才是7家大模型做高考数学题的真实分数

这篇文章描述了作者利用多个推理模型进行了一场数学高考的模拟测试,并详细介绍了测试规则。最终结果显示,Gemini表现最突出,而DeepSeek和Qwen3则表现较弱。通过这次测试,作者认为对于AI模型来说,数学高考并非特别难,但识别错误会影响结果。文章强调了考试公正性和严谨性的重要性。

奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降

沃顿商学院研究发现,奥特曼喜爱的直接回答提示词会显著降低模型准确率。同时,思维链(CoT)命令的效果也有限,并且可能导致答案不稳定增加计算成本。