llm-speedrunner:自动化LLM Speedrunning挑战基准

llm-speedrunner:自动化LLM  Speedrunning挑战基准,评估前沿LLM Agent复现科学发现和创新的能力。亮点:1. 通过不同提示格式(伪代码、文本描述、论文)测试LLM Agent的复现能力;2. 无提示时可作为开放性评估,探索LLM的创新能力;3. 提供多种实验设置和扩展框架,方便添加模型、任务和自定义编码器。

参考文献:
[1] http://github.com/facebookresearch/llm-speedrunner



知识星球服务内容:Dify源码剖析及答疑,Dify对话系统源码,NLP电子书籍报告下载,公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群

(文:NLP工程化)

发表评论