自我反思归档

ICLR 2025 Oral LLM也有从众心理！

MLNLP社区是国内外知名的机器学习与自然语言处理社区。最新研究发现，大型语言模型（LLM）在AI团队中可能盲目跟随多数意见，甚至放弃原本正确的判断。浙江大学团队的研究指出多AI协作系统存在类似人类‘群体思维’的现象，并开发了测试平台验证这一现象。

下午4时 2025/05/20 作者新智元

形成了共识：推理能力越强，LLM越好。但多位华人参与的研究揭示：思维链CoT分散模型「注意力」，可能

MLNLP社区是国内外知名的人工智能社区，致力于促进学术交流。该领域内的三篇论文讨论了强化学习在大模型训练中的作用，并指出模型的推理能力大部分已在预训练阶段形成，RL更多起到优化选择路径的作用。

下午12时 2025/02/26 作者多知

Anthropic发布Claude 3.7 Sonnet模型，具备混合模式能力。该模型结合了推理和实时生成答案的功能，并已投入使用。

下午12时 2025/02/10 作者新智元

规模格式调优和大规模自我优化，开发出了Satori，一个在数学推理和跨领域任务中均表现优异的7B参数

下午11时 2025/02/08 作者新智元

ek-R1-Zero的「顿悟时刻」，可能并不存在。类似复现实验中之所以出现响应变长现象，或许只是因为

下午4时 2025/02/07 作者机器之心

有时对模型性能的助益不大。
在过去这半个月里，关于 DeepSeek 的一切都会迅速成为焦点。
一项

下午12时 2025/01/21 作者硅星人Pro

头图由豆包生成。提示词：一条海底大鲸鱼，赛博朋克，金属发光。
作者
｜
王兆洋
邮箱
｜
wangz

下午10时 2024/12/26 作者 AI先锋官

作者
｜
Jimmy
来源
｜
AI先锋官
昨天上午，一直坚持开源的通义千问Qwen团队推出了全新的

下午1时 2024/11/28 作者量子位

国产o1新选手登场，上海AI实验室版o1——书生InternThinker能快速解决数学、代码编程等任务，并能在推理过程中进行自我反思和纠正。其长思维能力提升显著，已在数学、代码及逻辑谜题等多种场景中展现优势。