在可以 RL 的地方,将迎来更多「李世石时刻」

Kimi 和 DeepSeek 通过 RL 技术分别在 short-CoT 和 long-CoT 模式下取得了出色表现,并提出了一些关键技术,如 Partial rollouts 来提升训练效率和长 CoT 数据涌现机制。该领域的发展显示了 AI 在复杂任务中的潜在能力。

酷!字节开源的一个非常智能的论文搜索代理:pasa

酷的PASA系统是一个智能的论文搜索代理,能自主调用搜索工具、阅读论文并选择合适的参考文献。PaSa-7B在多项指标上超越了其他基线,尤其在召回率和精确率上有显著提升,并且其架构由LLM代理、爬虫和选择器组成。