PaperWeekly
又一篇CCF-A!强化学习+多目标优化,吊打传统方法!
文章摘要:顶会论文探讨了强化学习与多目标优化融合提升AI决策能力的技术。港科大和MIT团队通过不同方法在自动驾驶及机器人控制中实现安全性和能效的双重提高;阿里云技术则优化金融交易系统的风险收益平衡,这些成果重塑智能决策边界。
3710亿数学Tokens!全球最大开源数学数据集MegaMath震撼发布,碾压DeepSeek-Math
指标。
近日,LLM360 推出了
MegaMath:全球目前最大的开源数学推理预训练数据集
,共计
ICLR 2025 扩散模型奖励微调新突破!Nabla-GFlowNet让多样性与效率兼得
本文介绍了一种基于生成流网络的扩散模型奖励微调方法Nabla-GFlowNet,该方法能够在快速收敛的同时保持生成样本的多样性和先验特性。通过在Stable Diffusion上实验验证了其有效性。
Token刺客来袭!AgentPrune一键屏蔽废话智能体,成本暴降60%性能翻盘
由同济大学、香港中文大学等机构提出的新技术AgentPrune,通过多智能体剪枝技术解决基于大模型的多智能体系统中的通信冗余问题。该技术能大幅降低通信开销,提升系统的鲁棒性和任务完成效率。
SIGGRAPH 2025 即插即用!港中文、腾讯等提出首个双分支视频修复框架VideoPainter
和编辑能力。
通过构建大规模(390K 视频片段)视频修复数据集,结合轻量级上下文编码器(仅占骨干网