推理任务归档

OpenAI爆出硬伤，强化学习是祸首！o3越强越「疯」，幻觉率狂飙

下午4时 2025/04/20 作者新智元

在一个致命问题：幻觉率高达33%，是o1的两倍。Ai2科学家直指，RL过度优化成硬伤。
满血o3更强

下午2时 2025/03/27 作者小兵的AI视界

eepSeek-V3-0324
模型，虽然官方将其定义为小版本升级，但其带来的能力提升却令人瞩目
。

下午2时 2025/03/06 作者 AI技术研习社

Claude 3.7 Sonnet是Anthropic最新推出的AI模型，主打‘会思考’。它在软件工程、推理和数学方面表现更出色，并引入了Extended Thinking功能让思考过程可视化。

上午8时 2025/03/06 作者 NLP工程化

训练能自我奖励推理的大型语言模型，显著提升推理准确率最高达14.2%，并能自动修正错误。

下午11时 2025/02/17 作者 AI寒武纪

代码生成专家DeepSeek提出CodeI/O方法，通过将代码转化为预测输入-输出格式，结合自然语言思维链解释来增强通用AI推理能力。