学术
多模态慢思考:分解原子步骤以解决复杂数学推理
AtomThink 是一个全流程框架,通过改进多模态大语言模型的原子推理步骤质量来解决复杂的数学推理问题。它发布了一个高质量的长链式思考数据集,并引入了慢思考策略提高了各种数学任务的推理性能。
强推理模型书生InternThinker开放体验:自主生成高智力密度数据、具备元动作思考能力|通专融合探索新进展
上海AI实验室展示了自主生成高智力密度数据的’模型’并开放了强推理模型’书生·InternThinker’。该模型能进行长思维、自我反思和修正,显著提升复杂任务处理能力。研究团队采用了元动作思考范式和通专融合的数据合成方法来增强推理策略的学习效率。
文末送书 一线专家出品!拥抱AI的下一波浪潮:具身智能普及读本重磅发布
具身智能是智能体与其环境的互动中展现的一种智能。近年来,其发展迅速,涵盖机器学习、人工智能等多个领域,并在多模态感知、自主决策等方面展现出强大能力。目前中国在该领域的研究和发展受到国家政策支持,在粤港澳大湾区尤为突出。未来还需解决技术及伦理安全等挑战。
GPU 矩阵乘实际可达最大FLOPS测量工具
介绍了一个用于测量GPU上矩阵乘法最大FLOPS的工具mamf-finder.py,支持多种数据类型和不同GPU型号(如A100、MI300X和H100),提供了FP16和FP8使用示例。
流式深度学习终于奏效了!强化学习之父Richard Sutton力荐
本文提出了一种名为 stream-x 的深度强化学习算法,用于解决流式障碍问题。该方法无需使用重放缓冲区、批量更新或目标网络,即可从最新的经验中进行学习,并且在样本效率上可与批量强化学习相当。