太猛了!DeepSeek R1核心技术复现,30美元实现:小模型 RL Scaling 革命
来自加州伯克利大学的研究团队以极低的成本(低于30美元)成功复现了DeepSeek R1-Zero的关键技术,并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。
来自加州伯克利大学的研究团队以极低的成本(低于30美元)成功复现了DeepSeek R1-Zero的关键技术,并在‘倒计时’游戏中展示了小型语言模型的强大自验证和搜索能力。
新智元报道
编辑:KingHZ
AI模型在「人类最后一次考试」中的准确率低于10%,表现自信过度。该项目包含3000个问题,覆盖100多个学科领域。
本文提出了一种新的推理框架Search-o1,通过自主知识检索和文档内推理模块提高了大型推理模型的知识获取能力,显著提升了其在复杂任务中的表现,并展示了其在解决知识不足问题上的潜力。
智谱近期完成30亿人民币融资,并宣布将用于进一步研发大模型,目标从回答问题升级到解决复杂推理、多模态任务。公司已公开商业化战绩,包括年收入增长超30倍和付费客户数增长超20倍等。