监督微调归档

微软开源新版ph4：媲美DeepSeek-R1，参数暴降48倍

上午8时 2025/05/10 作者 AIGC开放社区

微软开源了三款小参数模型Phi-4 Reasoning、mini版本Phi-4 mini-reasoning和强化学习版本Phi-4 reasoning-plus，算力消耗低，在Windows系统生态中表现突出。

下午4时 2025/05/05 作者新智元

系统解析了监督微调（SFT）、强化学习（RL）以及奖励机制、数据构建等关键技术细节。
最近，推理语言

下午2时 2025/05/03 作者老刘说NLP

题。
最近看到一句话，很有感触，
真正的技术护城河是：十年如一日的苦活、脏活、累活，说不清、道不明的

下午4时 2025/04/21 作者机器之心

了？大语言模型（LLM）推理需要强化学习（RL）来「加 buff」。
著名 AI 研究者和博主 Se

下午4时 2025/04/20 作者机器之心

扩散模型通过新框架d1实现推理功能，结合监督微调与新颖策略梯度方法diffu-GRPO提升数学和逻辑推理能力。

下午2时 2025/04/18 作者老刘说NLP

近期文章讨论了关于推理大模型以及DeepMath-103K数据集的相关进展和思考。主要内容包括推理大模型的研究方向、推理模型的数据集构建方案，以及RAG方向的发展与应用。

下午4时 2025/04/14 作者新智元

到「缺失前提」（MiP）的问题时，这些模型往往表现失常：回答长度激增、计算资源浪费。本文基于马里兰大

上午11时 2025/04/14 作者机器之心

了突飞猛进的进展。
在探索的过程中，一个核心的议题是：对于模型推理性能的提升来说，什么有效？什么无效