代理环境归档

ICLR 2025 Oral 训练LLM，不只是多喂数据，PDS框架给出最优控制理论选择

下午11时 2025/04/23 作者机器之心

本文通过最优控制理论建立起数据选择与训练动态之间的数学联系，为理解预训练数据的价值提供了理论抓手。这一方向不仅有望替代传统依赖直觉与试验的数据筛选流程，也为未来自动化、可解释的大模型训练打开了新思路。