概率统计机制下,LLM 推理真的「理解世界了」吗?

本周会员通讯解读了2个AI & Robotics业内要事。首先讨论了概率统计机制下LLM推理的真实情况,涉及简单复读和显性路径在推理中的角色、Next Token Prediction的动态建模过程以及因果理解的表达。其次探讨了企业如何使用AI采购预算,并分析了从自行构建转向购买第三方应用的原因。通讯还包含2项专题解读及31个要事速递。

奥特曼ChatGPT用法错了!最新研究:要求“直接回答”降低准确率,思维链提示作用也在下降

沃顿商学院研究发现,奥特曼喜爱的直接回答提示词会显著降低模型准确率。同时,思维链(CoT)命令的效果也有限,并且可能导致答案不稳定增加计算成本。

谷歌DeepMind强化学习微调技术,重构了大语言模型决策范式

谷歌DeepMind与LIT AI实验室的研究通过强化学习微调技术显著提升语言模型的决策能力,引发对未来AI新纪元的关注。该研究采用内在奖励机制和惩罚-塑造机制增强模型在真实世界中的应用效果,并探索人机共生、道德涌现等前沿议题。

「R1时刻」降临!港中文MMLab定义文生图新范式,彻底告别“无脑画图”

最近的大语言模型在数学和编程等领域展示了强大的推理能力,通过强化学习使用思维链逐步分析问题。本文介绍了一种新的方法将这种策略应用于图片生成任务中,提出了两种不同的层次的思维链(CoT):Semantic-CoT负责设计图像的整体结构,而Token-CoT则专注于逐块生成细节。通过使用强化学习优化这两个层次的CoT,并引入多个视觉专家模型作为奖励模型来评估生成的图片质量,最终提出了一种新的文生图模型T2I-R1,显著提高了模型生成符合人类期望的结果的能力。

谷歌放大招!新版 Gemini 2.5 Pro 碾压 Claude、GPT,地表最强 AI 来了?

谷歌在I/O开发者大会上发布了新版Gemini 2.5 Pro Preview,该模型已在网页版、App端和开发者平台全面上线,并提供免费的25次每日使用额度。它被认为目前是地表最强且免费的多模态模型,尤其擅长编程任务。此外,新版还支持100万 tokens 上下文,具备强大的推理能力和前端UI优化能力。