数学能力归档

新版DeepSeek R1你得这样用，太爽啦~

下午4时 2025/05/30 作者开源星探

几经波折测试后发现，新版DeepSeek R1在代码能力上大幅提升接近Claude4水平，而写作和数学能力提升有限。升级后的新版本代码和审美增强明显。

UC伯克利华人开源14B「o3-mini」，代码版R1突袭OpenAI王座！

下午4时 2025/04/09 作者新智元

型竟被抢先开源！UC伯克利和Together AI联合推出的DeepCoder-14B-Previe

Claude 3.7 Sonnet：AI界的“思考达人”来了！｜Claude 3.7构建论文分析器

下午2时 2025/03/06 作者 AI技术研习社

Claude 3.7 Sonnet是Anthropic最新推出的AI模型，主打‘会思考’。它在软件工程、推理和数学方面表现更出色，并引入了Extended Thinking功能让思考过程可视化。

发布3天后，Grok 3开放免费使用，马斯克：让你们用到服务器崩溃为止

下午4时 2025/02/20 作者 AI前线

马斯克的AI公司xAI宣布Grok 3模型免费开放使用，直至服务器崩溃。X功能最全套餐目前价格为每月40美元或每年395美元。用户称Grok 3比ChatGPT好但不如Claude。xAI希望通过提供完整的SOTA模型吸引用户。

斯坦福揭秘o1-preview软肋！数学竞赛题稍作修改，准确率骤降30%

下午4时 2025/01/31 作者新智元

斯坦福研究发现，即使在数学竞赛中表现出色的大模型o1-preview，在题目稍作修改后准确率也会大幅下降30%。这揭示了AI模型在应对变体题时的局限性。

自动评估基准 | 基础概念

下午2时 2024/12/25 作者 Hugging Face

自动评估基准通常通过数据集和评估指标来测试模型的表现。文章介绍了基础概念、设计评估任务、选择合适的评估指标等方法，并指出了其优势与劣势，包括一致性、成本效益、易于理解以及高质量测试集的特性，但同时也提到复杂任务难以保证效果和数据污染的问题。

Kimi版o1实装上线，这里是我们的一手测试↑

下午10时 2024/12/16 作者量子位

Kimi新模型k1发布即上线可用，视觉与推理能力出众。基于强化学习，k1能够深入理解图片信息并进行思维链推理，涵盖数学、物理及化学题。数理化实测中表现出色，超越OpenAI等模型。

OpenAI重夺竞技场第一，但这波靠的是4o

下午1时 2024/11/21 作者每时AI

OpenAI开发者日新加坡站举行，新版ChatGPT发布。此版本更新了创意写作能力，并且在多项具体能力和综合排名中表现突出。新版本击败Gemini-Exp-1114和Claude 3.5 Sonnet等竞争者，总胜率达到72%以上。OpenAI还透露即将上线的o1满血版及其开源计划引发了网友们的关注与讨论。

对标o1，Kimi放出了最能打的国产模型

上午9时 2024/11/18 作者每时AI

国内大模型初创公司月之暗面推出的新一代推理模型Kimi k0-math在数学能力上已实现对标OpenAI o1-mini和o1-preview，包括在中考、高考等基准测试中表现出色。该模型采用了强化学习和思维链推理技术，能够模拟人脑的思考过程，并能有效应对竞赛级别的数学题库。

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30