开源推理大模型全面开花的一周：多模态、RAG、Agent、编码

抱抱脸热门模型排行榜Top10要挤不下了，出现了不少推理大模型，涉及编码、RAG、Agent、多模态等：

agentica-org/DeepCoder-14B-Preview
nvidia/OpenCodeReasoning
moonshotai/Kimi-VL-A3B-Thinking
Llama-3_1-Nemotron-Ultra-253B-v1
【未开源】字节豆包/Seed-Thinking-v1.5（说是200B击败了DeepSeek-R1）

1、模型DeepCoder-14B-Preview

一款基于代码推理的大型语言模型（LLM），由 DeepSeek-R1-Distilled-Qwen-14B 经过分布式强化学习（RL）微调而来。该模型在 LiveCodeBench v5上达到了60.6%的Pass@1准确率，相比基础模型（53%）提升了8个百分点，并且仅用140亿参数就实现了与OpenAI的o3-mini相似的性能。

2、模型-英伟达/Llama-3.1-Nemotron-Ultra-253B-v1

基于 Meta Llama-3.1-405B-Instruct 的一款推理模型，经过后续训练以增强推理能力、人类聊天偏好以及诸如 RAG 和工具调用等任务的性能。支持长达 128K 个标记的上下文长度，可以在单个 8xH100 节点上进行推理。

该模型经过了多阶段的后续训练过程，以增强其推理和非推理能力。这包括针对数学、代码、推理、聊天和工具调用的监督微调阶段，以及使用组相对策略优化（GRPO）算法进行推理、聊天和指令遵循的多个强化学习（RL）阶段。

Nemotron训练流程：

3、数据OpenCodeReasoning

是迄今为止最大的基于推理的编程合成数据集，包含28,319个独特的编程竞赛问题中的735,255个Python样本。OpenCodeReasoning 是为监督式微调（Supervised Fine-Tuning, SFT）而设计的。

4、模型Kimi-VL-A3B-Thinking

这是一款高效的开源混合专家（MoE）视觉-语言模型（VLM）。它在高级多模态推理、长文本理解以及强大的Agent能力方面表现出色，同时其语言解码器（Kimi-VL-A3B）仅激活了2.8B个参数。

在对比评估中，Kimi-VL 有效地与诸如 GPT-4o-mini、Qwen2.5-VL-7B 和 Gemma-3-12B-IT 等尖端高效的视觉-语言模型竞争，并且在几个专业领域中超越了 GPT-4o。

该模型采用了混合专家（MoE）语言模型、原生分辨率的视觉编码器（MoonViT）以及一个多层感知机（MLP）投影器：

5、技术报告Seed-Thinking-v1.5

数据处理：将强化学习训练数据分为可验证问题（如STEM问题、代码问题）和不可验证问题（如创意写作、翻译），并针对不同问题类型采用不同的奖励建模方法，以提升模型的推理能力。
强化学习算法：为解决强化学习训练的不稳定性，提出了VAPO和DAPO两个框架，并借鉴了价值预训练、解耦GAE等关键技术，以提高模型的训练效率和性能。
RL基础设施：设计了流式Rollout系统（SRS）和混合分布式训练框架，通过并行机制、序列长度平衡、内存优化等手段，解决了长尾响应生成中的GPU空闲问题，提高了大规模训练的效率。

更多信息：《动手设计AI Agents：CrewAI版》、《高级RAG之36技》、新技术实战：中文Lazy-GraphRAG/Manus+MCP/GRPO+Agent、大模型日报/月报、最新技术热点追踪解读（GPT4-o/数字人/MCP/Gemini 2.5 Pro）

https://hf-mirror.com/agentica-org/DeepCoder-14B-Previewhttps://hf-mirror.com/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1https://hf-mirror.com/datasets/nvidia/OpenCodeReasoninghttps://github.com/ByteDance-Seed/Seed-Thinking-v1.5字节报告地址：https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

（文：PaperAgent）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

发表评论 取消回复

发表评论取消回复