无需数据标注!测试时强化学习,模型数学能力暴增 清华&上海AI Lab 下午4时 2025/04/24 作者 量子位 清华和上海AI Lab团队通过测试时强化学习方法,提升模型数学能力159%,在多个数据集上表现显著。
AI 终极十问!DeepSeek 如何颠覆开发者认知? | DeepSeek 十日谈 下午11时 2025/02/12 作者 AI科技大本营 推理模型DeepSeek R1展示了其自我进化的能力和解决复杂问题的潜力。该模型采用纯强化学习技术,并结合监督微调提升推理能力。然而也有观点认为这更侧重于工程实践而非科学创新。