SIGIR 2025 解决扩展和迁移难题,华为新加坡提出InstructRAG,提升高达19% 2025年5月23日16时 作者 机器之心 大语言模型通过InstructRAG方案结合指令图、强化学习和元学习实现任务规划的可扩展性和迁移性,提升19.2%性能,在多个数据集上表现优于现有方法。
超越DeepSeek-R1关键RL算法GRPO,CMU「元强化微调」新范式登场 2025年3月13日12时 作者 机器之心 高推理能力的潜力,比如 OpenAI 的 o1 系列。 通常来说,这些方法在训练模型时可以产生比典型