原生多模态大模型也能强化学习，思维链长达几万字，商汤日日新V6来了

机器之心报道

机器之心编辑部

拥有行业最强多模态推理与交互能力的商汤「日日新 SenseNova V6」来了。

如果让大模型像人一样聪明，应该是什么样的？

你可能会回答，我们生活的世界纷繁复杂，常常涉及多模态信息（如声音、文字、视觉、时间、空间等等），对大模型提出了极为复杂和严苛的挑战。

这要求大模型必须拥有极强的推理和交互能力。

GPT-4o 的出现让我们看到了人机交互新方式。就像这样，它可以为你讲解数学题。

可以说，一直以来，GPT-4o 是可交互模型的行业标杆。

现在，来自国内的一款大模型，表现甚至更胜一筹。

下面是来自国产大模型的解题过程，它能循序渐进的教你如何解题，看起来比 GPT-4o 更像一位有耐心的老师：

又比如，我们指尖指向哪个单词，它就进行精准翻译，并自动生成单词卡，整个过程自然丝滑。

这正是商汤全新升级的融合多模态模型「日日新 SenseNova V6」（以下简称：日日新 V6）在 APP 端的体验效果。

模型通过多模态长思维链训练、全局记忆、强化学习等方面的技术突破，拥有行业最强的多模态推理与交互能力。

相比此前 V5.5 版本，日日新 V6 / V6 Reasoner 推理能力显著增强。其中在多模态推理任务上，SenseNova V6 Reasoner 同时超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking 。在语言深度推理任务上，SenseNova V6 Reasoner 也同样超过了 OpenAI 的 o1 和 Gemini 2.0 flash-thinking。

日日新 V6 在权威的推理能力及多模态能力评测中，也处于行业领先水平。在纯文本和多模态任务上，多项指标超越 GPT-4.5、Gemini 2.0 Pro，并且在纯文本任务上全面超越 DeepSeek V3。纯文本推理与多模态推理能力均对标 GPT-4.5 和 Gemini 2.0 Pro 等国际一流模型的水平。

在强推理能力上，日日新 V6 大幅领先 GPT-4o。

此外，日日新 V6 在音频理解、视觉理解等基准上也处于领先水平。

目前，日日新 V6 已经正式开放 API，并可通过商量 Web、商量 App（内测版），以及商汤小浣熊、咔皮记账等应用进行体验。

一手实测：主打多模态与深度思考的融合

既然日日新 V6 各项指标已经做到了全面领先水平，那真实体验效果如何呢？

接下来，我们第一时间上手实测一下日日新 V6 大模型，看看它在实际应用场景中的表现究竟如何。

首先考考它的推理能力。

我们出了一道纯文本的逻辑推理题，商量花了 42 秒进行了深度思考，先根据题目条件来逐步推理，再倒推验证，最终给出正确答案，整个思路非常清晰。

商量还支持多模态深度思考，换句话说，我们不仅可以输入文字，还可以上传最多 4 张图片。

比如，我们上传了一张莫妮卡・贝鲁奇的经典剧照，看它能否准确说出其出处。

商量综合分析了红发黑裙的人物造型，石板街道、户外咖啡馆等场景细节，以及主题氛围和视觉风格，最后认出这是《西西里的美丽传说》。同时，它还一并回答了该电影的导演以及主要的影片内容。

接着，我们又测了下它的交互能力，涉及数学讲题、翻译点读、文旅讲解和绘本故事四大应用场景。

对于年轻父母来说，辅导孩子学习可是一件苦差事，甚至「不写作业，母慈子孝；一写作业，鸡飞狗跳」一度成为网络热梗，而商量的「数学讲题」场景，简直帮了父母们的大忙。

它包括判题和讲题两大功能。只要拿着孩子写的试卷，咔嚓拍个照，它就能精准识别手写答案，而且它的深度思考模式可显著提高解题准确性，正确率可达到 95%。

同时，基于强大的音视频沟通能力，商量还搞了个「免费数学私教」，不仅能快速锁定孩子在解题中的错误、以引导提问的方式逐步剖析解题思路，还可以实时一对一语音答疑。

视频开启 2 倍速

给孩子讲绘本故事也让不少家长头疼，虽然绘本图文并茂，但照本宣科讲出来就显得干干巴巴。商量则通过多模态识别与语音表达技术，将绘本内容进行情感化演绎，融入语音互动或后续故事问答等内容。

如果出门旅游，商量还是个合格的导游。拍摄一段文物或景点画面，它就能声情并茂地讲解相关历史背景。

从基准测试到实际体验来看，毫不夸张的说，日日新 V6 确实是一位名副其实的全能优等生。大家可能会疑问了，打造这样一款大模型体系，成本一定很高吧。

事实上成本与效率这块商汤也拿捏了。

技术解读：原生融合多模态，还有独门技术

在日日新 V6 大模型上，商汤通过一系列创新性的技术突破和商业策略，成功实现了高性能与低成本的完美平衡。

从硬件基础说起，利用商汤大装置，商汤构建了「模型 – 系统 – 计算」的垂直整合体系，实现了大模型算法与基础设施的联合优化，大幅提升了日日新 V6 的训练和推理效率。

依靠 6D 自动并行、FP8 低精度训练等技术，日日新 V6 的训练成本达到了行业最优水平。在推理时，日日新 V6 实现了生产级的 INT4 量化、高适应性的分级缓存、分钟级弹性扩缩容，整体推理成本也做到了行业最低，效率超过了 DeepSeek。

在此之上的大模型算法，也是商汤在 AI 领域深耕多年的结果。

如今，多模态大模型已成为人们追求的方向。然而，我们在很多应用中接触到的多模态模型并不能说是「完全体」。正如我们在很多应用中所接触到的，不少大模型是把图像、语音、文本分别训练好，再用「胶水代码」粘在一起。就像用翻译软件先把图片转文字，再把文字转成语音 —— 看似多模态，实际上是多个单模态在接力干活。

真正的多模态应该像人类感官与大脑，比如当人类看到苹果时，视觉（颜色）、触觉（手感）、味觉（甜味）是同时感知的。

商汤从一开始就全面瞄准多模态。他们从模型底层架构和数据训练阶段就实现不同模态（如文本、图像、音频、视频等）的统一理解和生成，而非后期拼接多个单模态模型。

去年 7 月，商汤推出的日日新 SenseNova 5.5 大模型体系引发了业内关注。它是国内首个流式原生多模态交互模型，拥有 6000 亿参数，基于超过 10TB tokens 的高质量训练数据实现了 109.5 字 / 秒的推理速度。

今年 1 月，商汤在原生融合多模态训练上实现突破，发布了「日日新」融合大模型。并在 SuperCLUE 2024 年语言模型综合榜单、OpenCompass 多模态综合榜单上取得了国内模型榜首的成绩，验证和商汤融合训练技术的巨大潜力。

沿着这一路径，商汤进行了进一步优化和规模扩展，并在日日新 V6 上实现了多模态综合性能的显著提升。

日日新 V6 进一步强化了推理能力，它可以支撑起对人类意图的深化理解，对复杂信息进行分析判断，并解决真实环境中的难题。与此同时，它还可以充分理解感情，与人进行流畅的交互。它拥有足够长的记忆，能够记住过去一段时间内发生的事，并将记忆内信息融入推理。

模态越多，大模型处理的实际上下文就越长。在思维链上，商汤通过多智能体协作进行长思维链合成和验证，实现了多模态长思维链合成技术，可以支持合成最长 64K token 的多模态长思维链，这相当于让模型在给出答案之前可以连续进行长达 6 万字的思考，让模型具备了面对复杂问题的长时间思考能力。

日日新 V6 的思维链引擎中，商汤调用了一系列以往在计算机视觉方面的能力，包括视频、图像、3D 等以给出主思维链的反馈，其输出的多模态思维链会被智能体改写为符合模型的训练格式。日日新 V6 在思考时还可以调用沙盒甚至外部代码能力来呈现出更好的思维链。

这就让日日新 V6 在做立体几何问题时，甚至可以做辅助线。

前不久，DeepSeek R1 通过强化学习算法 GRPO 取得了突破，商汤在 SenseNova V6 上为大模型带来了多模态混合强化学习，面向多种图文任务构建起混合增强学习框架，可以同步进行基于人类偏好的 RLHF 和基于确定性答案的 RFT，并且通过动态调节机制保证主客观表现的均衡，能在提升推理能力的同时不损害模型的情感表达。

在这个过程中，原始的多模态模型可以被调用到奖励模型中，获得先验知识的反馈，随着持续反思，模型的响应长度变得更长，这也意味着推理变得更仔细。

最后，日日新 V6 还具备独一无二的长视频统一表征和动态压缩能力，它可以将视觉、听觉、文本、时间轴逻辑进行对齐，形成多模态统一的时序表征，通过细粒度级联信息压缩和内容敏感的动态过滤，实现长视频的 400 倍高比例压缩。据介绍，商汤的大模型可以把 10 分钟视频压缩到仅有 16K tokens，仍能保留关键语义。

对于真实世界中的应用，这一系列技术至关重要。

发布会现场，我们看到商汤与傅利叶机器人合作，基于 SenseNova V6，傅利叶机器人可以通过融合图像、视频、语音和文本信息理解环境进行思考与表达，洞察用户的需求与情绪，与人类进行顺畅交互，机器人在说话的同时，还能同步生成与语义相匹配的动作，实现语言与行为的统一。

此外还有更多搭载 SenseNova V6 的 AI 产品和应用，涵盖办公、儿童教育、金融、翻译、电商购物、情感陪伴、支付等等，让我们感受到，AI 已经落实于百姓的日常生活场景。

生成式 AI，正在进入新时代

时间进入 2025 年，大模型技术的发展正在进入新的阶段，一些重要技术已经走入瓶颈期，新的方向正在出现。

图灵奖得主、Meta 首席 AI 科学家 Yann LeCun 在谈及 AI 为何难以做出科学发现时曾表示，纯粹的语言模型不能完整地表达智能，无法创造新的事物。

基于文本的生成式 AI 也在接近「上限」，大语言模型的发展正在快速耗尽互联网的文本数据。OpenAI 联合创始人 Ilya Sutskever 认为，耗尽的时间会在 2028 年前后。

另一方面，在数字世界、物理世界中还有很多、甚至更大数量级的更多模态的内容还没有挖掘。

从 DeepSeek 横空出世，到英伟达 H300 超算的发布，我们可以观察到，AI 领域正在出现几个新的趋势：

首先是对于 Scaling Laws 的新思考，随着大模型参数和训练数据量级增加效益的递减，业界正在逐渐把关注点转向效率提升；
其次是多模态能力，从 GPT-4o 和最近发布的 Llama 4 上可以看出，具备原生的多模态能力，能够实现更深度、更广泛的信息交互与整合，将会成为未来大模型的竞争重点；
在它们的基础上，大模型的强推理则会成为人们打造复杂任务智能体，实现高价值场景应用的关键。

有趣的是这三个方面，也正是商汤的优势项：凭借大量融入真实业务的应用，商汤构建出的大模型体系拥有处理复杂信息和解决复杂问题的能力；多年在计算机视觉等方向上的积累，让商汤在大模型迈向多模态时具备了绝对优势；在算力方面，商汤的大装置 SenseCore 一直在推动 AI 算力设施、应用与行业需求的深度融合，其能力还在不断增长。

在 AI 2.0 时代，基础设施、大模型和应用三者的关系已变得密不可分。越来越广泛的应用场景在推动着 AI 模型的发展，AI 技术也在不断创造并推动新的应用需求；与此同时，对大模型优化的 AI 基础设施正在出现，新的模型也在催生着更为强大的技术。

未来，商汤的日日新大模型，还会向生产力工具 + 交互工具两大方向进行大规模落地。其中生产力工具面向传统企业、金融、政务等领域，能帮助人们提升工作效率、优化工作流程；交互工具则面向所有普通用户，覆盖从智能助手、智能硬件到智能营销……

过不了多久，最常见的日常场景，也都能用上原生多模态 AI 的力量。

（文：机器之心）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复