AIME归档 - 每时AI

一键部署丨DeepSeek-R1 新版本小幅升级便登顶开源王座，多项评测超越 Qwen3

下午11时 2025/05/30 作者 HyperAI超神经

近日，DeepSeek-R1-0528版本发布，通过提升配置优化算法显著提升了推理能力，并在多个基准测试中超越了Qwen3-235B和DeepSeek-R1。HyperAI超神经已上线一键部署教程，欢迎体验。

无需标注数据！清华TTRL让AI自学正确率飙升159%，数学题秒变送分题

下午2时 2025/05/05 作者小兵的AI视界

清华大学和上海人工智能实验室提出测试时强化学习(TTRL)，通过在无标签数据上利用多数投票等方法估计奖励信号来提升大规模语言模型性能。

只要9美元！LoRA+强化学习，DeepSeek 1.5B推理性能暴涨20%

下午4时 2025/05/02 作者新智元

南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升，成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。

OpenAI发布o3满血版+o4 mini:10倍算力堆出满分视觉推理，AI看图思考新时代

下午2时 2025/04/17 作者 AI先锋官

就在今天凌晨，OpenAI发布了满血版o3和o4-mini模型，实现了图像思考能力。两款新模型在数学竞赛及编程任务中表现优异，视觉推理功能增强，支持Python分析、网络搜索等工具协同工作，有望改写专业岗位角色。

智谱深夜开源新一代GLM模型，推理速度快DeepSeek-R1八倍，还启用了全新域名Z.ai

下午4时 2025/04/15 作者机器之心

智谱宣布其核心技术链路完全开源，包括基座模型、推理模型和沉思模型等。新发布的GLM-4-32B-0414与GLM-Z1-32B-0414均以32亿参数量媲美更大规模的主流模型，并在工具调用、联网搜索、代码智能体任务等方面表现优异。同时，小尺寸的9B系列模型也开源了。智谱持续推动AI生态建设，为企业提供模型即服务（MaaS）解决方案。

超越DeepSeek-R1关键RL算法GRPO，CMU「元强化微调」新范式登场

下午12时 2025/03/13 作者机器之心

高推理能力的潜力，比如 OpenAI 的 o1 系列。
通常来说，这些方法在训练模型时可以产生比典型

2025 年 6 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30