流式深度学习终于奏效了!强化学习之父Richard Sutton力荐

本文提出了一种名为 stream-x 的深度强化学习算法,用于解决流式障碍问题。该方法无需使用重放缓冲区、批量更新或目标网络,即可从最新的经验中进行学习,并且在样本效率上可与批量强化学习相当。

斯坦福吴佳俊扩散自蒸馏来了!突破文生图身份保留挑战

斯坦福大学的研究提出了一种名为扩散自蒸馏(Diffusion Self-Distillation)的方法,该方法通过简单扩展普通扩散 transformer 模型为图像条件扩散模型来实现主体适应性和概念一致性。实验表明,其在概念保留和提示跟随方面都取得了最佳的整体性能。

一次示范让Agent适应各种新环境,浙大杭电智能体框架入选NeurIPS

只需一次人类示范,AutoManual框架就能让智能体快速适应新环境,成功率高达97%,且生成的Markdown手册易于阅读。该研究模仿了人类学习新环境的过程来记录和更新LLM Agent的理解,有效缓解了对人工专家依赖的问题。

科研党狂喜!AI预测神经学研究结论超过人类专家水平 Nature子刊

神经学研究专用基准BrainBench显示,经过训练的LLM预测结果准确率为81.4%,远超人类专家的63%。论文提出了一个新基准测试,评估LLM预测神经科学结果的能力,并发现LLMs学习了广泛的科学模式而不是记忆数据。