AMD发布科研Agent,论文自动化评分趋近顶会NeurIPS水平~

科学发现漫长且成本高昂,为了加速科学发现,降低研究成本,并提高研究质量,芯片厂商AMD推出了Agent Laboratory,这是一个基于自主大型语言模型(LLM)的框架,能够完成整个研究流程。

Agent Laboratory接受人类研究想法和一组笔记作为输入,将其提供给一系列由LLM驱动的专门Agent组成的流程线,并产生研究报告代码仓库

Agent Laboratory接受人类提供的研究想法,并通过三个阶段——文献综述、实验和报告撰写——来产生全面的研究成果,包括代码仓库和研究报告,同时允许用户在每个阶段提供反馈和指导。邀请多位研究人员通过参与调查、提供人类反馈来指导研究过程,并评估最终论文:
  • o1-preview驱动的Agent Laboratory产生了最佳的研究成果;

  • 生成的机器学习代码能够与现有方法相比达到最先进的性能;
  • 人类的参与,即在每个阶段提供反馈,显著提高了研究的整体质量
    • 自动化评估,按顶会NeurIPS标准,论文(6.1/10)接近了顶会NeurIPS接受论文的平均得分(5.9/10)
    • 而人类评估论文得分只有3.8/10,和自动化评估之间出现了一定差距

    • 协作模式(人类指导)下评估Agent Laboratory,评分由3.8提升到4.38(+0.58,NeurIPS接受论文的平均得分是5.9)。自选主题在实用性(+0.5)、继续使用(+0.5)和满意度(+0.25)方面普遍获得了更高的评分。

  • Agent Laboratory显著降低了研究费用,与之前的自主研究方法相比,实现了84%的减少

Agent Laboratory是如何工作的?
Agent Laboratory包含三个主要阶段,系统地指导研究过程:
  • 文献综述
  • 实验,
  • 报告撰写
在每个阶段,由LLM驱动的专门代理协作完成特定目标,整合外部工具,如arXiv、Hugging Face、Python和LaTeX,以优化结果。这个结构化的工作流程从独立收集和分析相关研究论文开始,通过协作规划和数据准备,最终实现自动化实验和全面报告生成。具体代理角色及其在这些阶段的贡献在论文中有详细讨论。模块化设计确保了计算灵活性,适应不同的资源可用性,同时保持生成高质量研究成果的效率。
Agent Laboratory工作流程
解决ML问题
进行研究的第一步是构建解决ML问题的能力。Agent Laboratory通过mle-solver来实现这一点。这个工具作为一个通用的ML代码求解器,将前一阶段的研究方向作为文本输入,并迭代改进研究代码。为了实现这一点,一组顶级程序根据输入(如任务指令、命令描述和提炼的知识)进行迭代改进,以根据评分函数提高实验结果。通过两个命令生成一系列更改:REPLACE(重写所有代码)和EDIT(修改特定行)。成功编译的代码根据评分更新顶级程序,而错误则提示最多三次修复尝试,然后尝试新代码。代理会反思每一步,以优化结果。
mle-solver工作流程概览
撰写研究报告
第二步是根据实验设计和结果生成研究报告。为此,引入了paper-solver,专注于报告生成。这个模块作为结果和代码到报告的生成器,将前一实验阶段的输出和发现总结成人类可读的学术论文。paper-solver综合前一阶段的研究,为研究人员提供清晰的成就总结。输入包括研究计划、实验结果、衍生见解和文献综述,输出格式适合会议提交的标准学术论文格式。
paper-solver的图形概述

https://github.com/SamuelSchmidgall/AgentLaboratoryhttps://agentlaboratory.github.io/https://arxiv.org/pdf/2501.04227

(文:PaperAgent)

欢迎分享

发表评论