京东集团算法总监韩艾将在 AICon 北京站分享基于强化学习的异构多智能体联合进化算法

AICon 大会即将召开,韩艾将分享基于强化学习的异构多智能体联合进化算法。大会涵盖多模态应用、推理性能优化等多个专题论坛,为 AI 技术开发者提供前沿洞察与实践经验。

炸裂!MiniMax推出全球最长上下文推理模型M1:512张H800三周完成训练,成本仅54万美金

MiniMax举办开源周活动,正式发布最新推理模型MiniMax-M1,支持100万token输入与8万token输出,参数量达4560亿。通过大规模强化学习训练,仅耗资53.47万美元。该模型采用混合注意力架构和闪电注意力机制,显著提升推理效率,并在复杂任务中表现突出。

103K「硬核」题,让大模型突破数学推理瓶颈

本文介绍了一篇关于 DeepMath-103K 数据集的研究论文,该数据集旨在解决当前大语言模型在数学推理训练中的数据瓶颈问题。论文详细描述了其高难度、新颖性和纯净性的特点,并展示了在多个基准测试中的卓越性能。