又一篇CCF-A!强化学习+多目标优化,吊打传统方法!

文章摘要:顶会论文探讨了强化学习与多目标优化融合提升AI决策能力的技术。港科大和MIT团队通过不同方法在自动驾驶及机器人控制中实现安全性和能效的双重提高;阿里云技术则优化金融交易系统的风险收益平衡,这些成果重塑智能决策边界。

ICLR 2025 扩散模型奖励微调新突破!Nabla-GFlowNet让多样性与效率兼得

本文介绍了一种基于生成流网络的扩散模型奖励微调方法Nabla-GFlowNet,该方法能够在快速收敛的同时保持生成样本的多样性和先验特性。通过在Stable Diffusion上实验验证了其有效性。

Token刺客来袭!AgentPrune一键屏蔽废话智能体,成本暴降60%性能翻盘

由同济大学、香港中文大学等机构提出的新技术AgentPrune,通过多智能体剪枝技术解决基于大模型的多智能体系统中的通信冗余问题。该技术能大幅降低通信开销,提升系统的鲁棒性和任务完成效率。