AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

UC Berkeley团队提出的新方法Intuitor通过优化模型自身的置信程度来提升大模型的复杂推理能力,无需外部奖励信号或标准答案。与传统强化学习相比,Intuitor能有效减少无效响应并提高模型在数学和代码生成任务中的表现。

从找眼镜到当导购,我和豆包的24小时”室友”体验

作者在北京最繁华商圈随机询问10位年轻人使用AI助手的习惯,发现大多数人因体验不佳而放弃。豆包推出视频通话功能后,用户可以直接与AI进行视频对话,体验提升显著。文章介绍了多场测试,展示了豆包在室内和室外环境下的表现及其带来的便利性,并强调了交互方式的改变对用户体验的影响。