RL缩放王炸!DeepSWE开源AI Agent登顶榜首,训练方法、权重大公开
AIGC领域专业社区关注微软、百度等LLM发展。著名大模型训练平台Together.ai联合Agentica开源创新AI Agent框架DeepSWE,实现42.2%准确率。
AIGC领域专业社区关注微软、百度等LLM发展。著名大模型训练平台Together.ai联合Agentica开源创新AI Agent框架DeepSWE,实现42.2%准确率。
UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B,使其在AIME基准上Pass@1准确率高达43.1%,参数量仅为1.5B且超越OpenAI o1-preview。