llm-speedrunner：自动化LLM Speedrunning挑战基准

llm-speedrunner：自动化LLM Speedrunning挑战基准，评估前沿LLM Agent复现科学发现和创新的能力。亮点：1. 通过不同提示格式（伪代码、文本描述、论文）测试LLM Agent的复现能力；2. 无提示时可作为开放性评估，探索LLM的创新能力；3. 提供多种实验设置和扩展框架，方便添加模型、任务和自定义编码器。

参考文献：
[1] http://github.com/facebookresearch/llm-speedrunner

知识星球服务内容：Dify源码剖析及答疑，Dify对话系统源码，NLP电子书籍报告下载，公众号所有付费资料。加微信buxingtianxia21进NLP工程化资料群。

（文：NLP工程化）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复