思维链归档 - 每时AI

概率统计机制下，LLM 推理真的「理解世界了」吗？

2025年6月22日11时作者机器之心

本周会员通讯解读了2个AI & Robotics业内要事。首先讨论了概率统计机制下LLM推理的真实情况，涉及简单复读和显性路径在推理中的角色、Next Token Prediction的动态建模过程以及因果理解的表达。其次探讨了企业如何使用AI采购预算，并分析了从自行构建转向购买第三方应用的原因。通讯还包含2项专题解读及31个要事速递。

奥特曼ChatGPT用法错了！最新研究：要求“直接回答”降低准确率，思维链提示作用也在下降

2025年6月9日16时作者量子位

沃顿商学院研究发现，奥特曼喜爱的直接回答提示词会显著降低模型准确率。同时，思维链（CoT）命令的效果也有限，并且可能导致答案不稳定增加计算成本。

打破思维链推理瓶颈！“软推理”让大模型学会人类抽象能力，token使用量还更少了

2025年5月24日16时作者量子位

研究提出Soft Thinking方法，让模型在连续的概念空间中进行“软推理”，打破基于离散token的推理瓶颈。相比标准CoT，最高提升Pass@1平均准确率2.48%，减少token使用量22.4%。

「R1时刻」降临！港中文MMLab定义文生图新范式，彻底告别“无脑画图”

2025年5月14日16时作者 PaperWeekly

最近的大语言模型在数学和编程等领域展示了强大的推理能力，通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中，提出了两种不同的层次的思维链（CoT）：Semantic-CoT负责设计图像的整体结构，而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT，并引入多个视觉专家模型作为奖励模型来评估生成的图片质量，最终提出了一种新的文生图模型T2I-R1，显著提高了模型生成符合人类期望的结果的能力。

谷歌放大招！新版 Gemini 2.5 Pro 碾压 Claude、GPT，地表最强 AI 来了？

2025年5月8日14时作者 AI信息Gap

谷歌在I/O开发者大会上发布了新版Gemini 2.5 Pro Preview，该模型已在网页版、App端和开发者平台全面上线，并提供免费的25次每日使用额度。它被认为目前是地表最强且免费的多模态模型，尤其擅长编程任务。此外，新版还支持100万 tokens 上下文，具备强大的推理能力和前端UI优化能力。

大模型“快答”能力堪忧？中科院推出S1-Bench，直击大推理模型快思考短板

2025年5月6日16时作者 PaperWeekly

慢思考）。但在日常的使用中，大量用户提问的问题更多是系统 1 问题（这些问题可以直觉快速回答），他们

一篇介绍推理模型的 test-time scaling 技术的文章

2025年4月25日8时作者 NLP工程化

文章介绍了测试时间缩放技术在提升大型语言模型推理性能方面的应用和方法，包括思维链、树形思维、自我一致性与集成投票等方法。

OpenAI深夜发布满血o3和o4mini: 两个没想到

2025年4月17日11时作者 AI寒武纪

OpenAI发布o3和o4-mini模型，具备连续调用超过600次工具的能力，超越人类工程师。主要特点包括全面工具访问与推理能力、图像推理能力的突破以及主动式工具使用。

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31