监督微调归档 - 第2页共3页

再看行业R1模型如何构建及减少推理大模型过度思考

下午2时 2025/03/23 作者老刘说NLP

今天是2025年3月23日，星期日。文章介绍了Fin-R1模型在金融领域的应用及其构建路线，包括数据处理和训练方法，并总结了减少推理大模型过度思考的技术方案。

下午4时 2025/03/17 作者量子位

零一万物发布万智企业大模型一站式平台，支持企业快速部署和应用DeepSeek模型。该平台提供一体机部署方案、集成API应用及行业定制服务，助力企业从通用大模型转向实际应用场景。

下午12时 2025/02/18 作者量子位

人大高瓴人工智能研究院与蚂蚁集团提出LLaDA模型，使用扩散模型替代自回归，挑战了大语言模型的固有限制，并在上下文学习、指令遵循和反转诗歌任务中超越GPT-4。

下午12时 2025/02/09 作者量子位

研究团队通过对比SFT和RL两种方法发现，长CoT的生成需要大量的计算资源。他们提出了四个关键发现：SFT并非必需但能简化训练并提高效率；推理能力随着训练计算增加而出现，但并非总是如此；可验证奖励函数对增长CoT至关重要；基模型中的错误修正等技能需要通过RL有效地激励。

下午2时 2025/02/07 作者 AI大模型实验室

文章介绍了通过16块H100 GPU在26分钟内训练出低成本语言模型S1K的方法，该模型与OpenAI的o1系列和DeepSeek R1系列性能相当。但实际研究发现，论文核心是基于开源Qwen2.5-32B模型，进行小数据集监督微调，并非直接复制了DeepSeek R1。

下午4时 2025/02/06 作者新智元

新智元报道
编辑：犀牛
【新智元导读】
大模型推理性能的提升，真的只能靠堆数据、加算力吗？李飞飞等用

下午2时 2025/02/06 作者老刘说NLP

今天是2025年02月06日，星期四，大年初九，北京，天气晴。
我们来介绍《Visual Guide

MLNLP
社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企