微软研究院
Agents Are Not Enough? !
本周解读了AI Agent在2024年的发展情况及面临的技术障碍,以及如何结合机器学习与符号人工智能帮助Agent解决落地问题,文中还提到了人形机器人和AI科学家的相关信息。
OpenAI科学家:现有模型+后训练足以产生黎曼猜想的新证明
OpenAI科学家塞巴斯蒂安·布贝克提出AGI时间衡量模型能力,GPT-4可完成人类任务,o1可完成需数小时任务;汤姆·麦考伊质疑LLM解决复杂数学问题的能力受限。双方辩论围绕当前LLM局限性展开讨论,强调数据瓶颈、幻觉问题和缩放方法缺陷。
PromptWizard:微软推出自家APE框架,主打“任务感知”,性能不错成本还低
微软研究院推出PromptWizard,通过反馈驱动机制实现自动优化Prompt,在极少量训练数据下取得出色性能,并且大幅减少模型调用次数和token数量。
微软:两个AI相互纠错,数学再涨5分
加州大学和微软研究院提出的新方法Flow-DPO利用两个大模型合作学习,解决数学问题时避免错误,提高推理质量和可读性。研究表明,这种方法显著提升了LLM的数学推理能力。