微软:两个AI相互纠错,数学再涨5分 下午1时 2024/12/02 作者 量子位 加州大学和微软研究院提出的新方法Flow-DPO利用两个大模型合作学习,解决数学问题时避免错误,提高推理质量和可读性。研究表明,这种方法显著提升了LLM的数学推理能力。