Sebastian Raschka长文:DeepSeek-R1、o3背后,RL推理训练正悄悄突破上限
了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
著名 AI 研究者和博主 Se
了?大语言模型(LLM)推理需要强化学习(RL)来「加 buff」。
著名 AI 研究者和博主 Se
近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案,以及RAG方向的发展与应用。
OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平,AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划,显著提升规划准确率并降低成本。
今天是2025年3月23日,星期日。文章介绍了Fin-R1模型在金融领域的应用及其构建路线,包括数据处理和训练方法,并总结了减少推理大模型过度思考的技术方案。
零一万物发布万智企业大模型一站式平台,支持企业快速部署和应用DeepSeek模型。该平台提供一体机部署方案、集成API应用及行业定制服务,助力企业从通用大模型转向实际应用场景。
人大高瓴人工智能研究院与蚂蚁集团提出LLaDA模型,使用扩散模型替代自回归,挑战了大语言模型的固有限制,并在上下文学习、指令遵循和反转诗歌任务中超越GPT-4。