强化学习
李飞飞S1成本仅50美元性能媲美Deepseek-R1,Logic RL成功重现了 DeepSeek R1 Zero 模型
本文介绍了5个AI和机器学习相关项目及工具:s1用于测试时间缩放提高推理效率;R1-V通过强化学习提升视觉语言模型泛化能力与训练效率;deepseek.cpp是一个基于C++的CPU-only推理实现,旨在为DeepSeek大语言模型提供支持;Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力;OpenHealth则是一款本地运行的AI健康助手。
OpenAI联创John Schulman,被曝火速离职Anthropic!刚刚入职6个月
OpenAI联创John Schulman离职加入竞争对手Anthropic,Schulman曾负责ChatGPT核心架构开发。
超越DeepSeek V3!Ai2再祭开源杀器Tülu 3,强化学习打破性能瓶颈
艾伦人工智能研究所推出的新模型Tülu 3 405B在多项基准测试中超越Deepseek v3和GPT-4,采用全新后训练框架,并提供完全开源的数据、评估、训练代码及开发配方。
AI大神Andrej Karpathy的通俗解释:预训练、监督式微调、强化学习!
AI 大神 Andrej Karpathy 比喻训练大型语言模型 (LLM) 的过程就像教育学生,以教科书的结构阐述了当前 LLM 训练现状和未来方向。他将预训练、监督式微调和强化学习分别比作背景信息、例题及解答和练习题,强调需要更多的实践来提升 LLM 能力。
竟用智能体DeepResearch对比DeepSeek R1模型,OpenAI急了?
OpenAI在ChatGPT中推出Deep Research功能,能够为复杂任务进行多步骤研究。其准确率高达26.6%,显著高于谷歌的9.4%。该功能由优化版O3模型支持,并利用Python工具绘制和迭代图表。
TinyZero:首个DeepSeek R1-Zero超低成本复现,不到30刀!
DeepSeek R1-Zero无需人类标注即可实现准确推理,通过强化学习自主发展自我验证和搜索能力。TinyZero展示了其在CountDown游戏中的复现成果,成本不到30美元。