开源推理大模型全面开花的一周:多模态、RAG、Agent、编码

热门模型排行榜Top10中出现多款推理大模型,包括代码推理、混合专家视觉-语言模型等。DeepCoder-14B-Preview在LiveCodeBench v5上的准确率提升了8%,仅用140亿参数实现相似性能;Llama-3.1-Nemotron-Ultra-253B-v1基于Meta Llama-3.1-405B-Instruct训练,支持长达128K标记上下文长度。OpenCodeReasoning是最大推理编程合成数据集,用于监督式微调;Kimi-VL-A3B-Thinking在多模态推理和视觉理解方面表现出色;Seed-Thinking-v1.5采用强化学习算法提升模型训练效率。

媲美OpenAI-o3,刚刚开源模型DeepCoder,训练方法、数据集大公开

著名模型DeepCoder-14B-Preview开源,参数虽少但表现优异。该模型在LiveCodeBench测试中得分为60.6%,高于OpenAI的o1模型,接近o3-mini水平。Together AI不仅开源模型权重和训练数据集,还优化了训练方法和技术以提升性能。