Flow-DPO归档 - 每时AI

微软：两个AI相互纠错，数学再涨5分

下午1时 2024/12/02 作者量子位

加州大学和微软研究院提出的新方法Flow-DPO利用两个大模型合作学习，解决数学问题时避免错误，提高推理质量和可读性。研究表明，这种方法显著提升了LLM的数学推理能力。