自我反思归档

Transformer原作、斯坦福、清华交大三篇论文共识：基座模型边界锁死RL能力上限

MLNLP社区是国内外知名的人工智能社区，致力于促进学术交流。该领域内的三篇论文讨论了强化学习在大模型训练中的作用，并指出模型的推理能力大部分已在预训练阶段形成，RL更多起到优化选择路径的作用。

下午12时 2025/02/26 作者多知

Anthropic发布Claude 3.7 Sonnet模型，具备混合模式能力。该模型结合了推理和实时生成答案的功能，并已投入使用。

下午12时 2025/02/10 作者新智元

规模格式调优和大规模自我优化，开发出了Satori，一个在数学推理和跨领域任务中均表现优异的7B参数

下午11时 2025/02/08 作者新智元

ek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为

下午4时 2025/02/07 作者机器之心

有时对模型性能的助益不大。
在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。
一项

下午12时 2025/01/21 作者硅星人Pro

头图由豆包生成。提示词：一条海底大鲸鱼，赛博朋克，金属发光。
作者
｜
王兆洋
邮箱
｜
wangz

下午10时 2024/12/26 作者 AI先锋官

作者
｜
Jimmy
来源
｜
AI先锋官
昨天上午，一直坚持开源的通义千问Qwen团队推出了全新的

下午1时 2024/11/28 作者量子位

国产o1新选手登场，上海AI实验室版o1——书生InternThinker能快速解决数学、代码编程等任务，并能在推理过程中进行自我反思和纠正。其长思维能力提升显著，已在数学、代码及逻辑谜题等多种场景中展现优势。