监督微调归档

Sebastian Raschka长文：DeepSeek-R1、o3背后，RL推理训练正悄悄突破上限

下午4时 2025/04/21 作者机器之心

了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。
著名 AI 研究者和博主 Se

下午4时 2025/04/20 作者机器之心

扩散模型通过新框架d1实现推理功能，结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。

下午2时 2025/04/18 作者老刘说NLP

近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案，以及RAG方向的发展与应用。

下午4时 2025/04/14 作者新智元

到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大

上午11时 2025/04/14 作者机器之心

了突飞猛进的进展。
在探索的过程中，一个核心的议题是：对于模型推理性能的提升来说，什么有效？什么无效

MLNLP社区是国内外知名的语言模型与自然语言处理社区。该文章探讨了大模型推理能力评估中的「玄学因素」，并提出建议以避免此类问题。

下午4时 2025/03/23 作者机器之心

OpenAI的o1和DeepSeek的R1模型在复杂领域达到人类专家水平，AlphaDrive提出一种强化学习和推理训练框架用于自动驾驶规划，显著提升规划准确率并降低成本。

下午2时 2025/03/23 作者老刘说NLP

今天是2025年3月23日，星期日。文章介绍了Fin-R1模型在金融领域的应用及其构建路线，包括数据处理和训练方法，并总结了减少推理大模型过度思考的技术方案。

下午4时 2025/03/17 作者量子位

零一万物发布万智企业大模型一站式平台，支持企业快速部署和应用DeepSeek模型。该平台提供一体机部署方案、集成API应用及行业定制服务，助力企业从通用大模型转向实际应用场景。

下午12时 2025/02/18 作者量子位

人大高瓴人工智能研究院与蚂蚁集团提出LLaDA模型，使用扩散模型替代自回归，挑战了大语言模型的固有限制，并在上下文学习、指令遵循和反转诗歌任务中超越GPT-4。