火山引擎 DeepSeek 落地实践分享:企业如何用好推理模型?

DeepSeek R1 上线之后,火山引擎是部署 R1 最快的云平台之一。

如今 R1 发布已经过去一个多月的时间,在兴奋之余,大家也更加关注如何将 DeepSeek 与自家业务场景结合,亦或是如何接入 DeepSeek 的模型来做开发,真正将 R1 应用于实际的业务流程,或者寻找到 PMF,实现项目的商业化落地。

  • 到底现在哪些场景最适合 DeepSeek R1 模型?
  • 在落地的时候,如何混搭生成模型与推理模型,实现更好的效果?
  • 企业如何用 R1 实现自身业务流程的提效与改造?

针对这些问题,Founder Park 联合火山引擎 V-Start 云创增长加速器及资源支持方 NVIDIA,邀请了火山引擎的技术专家、以及应用合作方,为大家分享 DeepSeek 在实际应用中的一手经验以及大模型在生产力场景的探索

圆桌嘉宾介绍:

  • 火山引擎方舟运营负责人&圆桌主持人 程子莹

  • 火山引擎方舟解决方案负责人 冯书云

  • 火山引擎豆包大模型产品解决方案总监  陈杰

  • 天润融通首席科学家 田凤占

注:点击「阅读原文」可以体验火山引擎DeepSeek满血版。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~
进群之后,你有机会得到:
  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。


01 

DeepSeek 让 AI 创业者

真正看到了希望

程子莹:DeepSeek 出现后,有哪些关键词想跟大家聊一聊?

田凤占:一个是「家喻户晓」,比 ChatGPT 发布时的情况有过之而无不及,在整个社会、各行各业都有重大影响,已经在做奥数题、判作文、写代码、填词谱曲等等各场景中都有所应用。除此之外,在技术圈也是一个巨大突破,是一场技术盛会。

推理模型虽然原来也有(OpenAI o1),但远在天边,用起来不方便。DeepSeek 是「近在眼前」,可以访问其官网,也可以通过火山等第三方平台接 DeepSeek。如果客户担心数据问题,也可以在自己的环境里部署;如果对它的模型不满意,觉得跟场景不匹配,还可以进行微调训练。DeepSeek 模型 的参数权重、训练方法、工具都是开源的,为技术人员带来了极大的方便,这是原来 ChatGPT 所没有的——开源创造更方便的环境。

冯书云:我最大的感受是「出圈」。之前日常接触的范围,合作方也好,同事也好,都是在行业内部保持很高的话题度。但今年过年回家最大的感受是身边的家人也在讨论 DeepSeek,这次整体的渗透更加广泛。此外,之前大家普遍都对 AI 产品有所感知,也都有使用经历,但对于背后的原理以及它是怎么出现的感知不深。DeepSeek 这波后,大家开始探讨更深层的问题了。

陈杰:DeepSeek 的爆火程度与现在的哪吒2 类似,用一个词来形容是「高开爆走」。相比于 2024 年的试探,DeepSeek 出现后,很多创业者看到了 AI 的价值以及可能带来商机,并且愿意投身于 AI 行业。

程子莹:DeepSeek 为什么会这么出圈且少有负面评价?

田凤占:第一是他们极致优化的工匠精神,让他们在算力受限的情况下依然能够做出优秀的模型。第二是自由创新的企业文化,对于刚毕业年轻人试错和创新的包容。

陈杰:走向成功的关键是低调做人,高调做事。把自己喜欢的事做到极致,并且按照终极目标一直走下去。

冯书云:如果用一个关键词形容的话我认为是自信。业界把巨大的进步统称为破坏式创新。破坏式创新其实是非常反直觉、反约定俗成的,并且相信自己能做到。

程子莹:推理模型的发展会对整个行业产生哪些深远影响?

田凤占:未来会不断出现与 DeepSeek 类似的「爆品」。DeepSeek 为后边的大模型奠定了非常好的基础,因为它是开源的,大家可以在这个基础上进一步做优化。DeepSeek 最大的贡献不在于提供了一个模型,而是把它开源出来,让大家可以在上面做更多的探索,探索出的结果又会更快地用到行业里面。

作为模型,它未来的发展会越来越像人。在情感方面或者是共情方面,AI 会扮演越来越多的角色,承担更多能力,会有越来越多的数字员工在不同的行业里落地应用。对于客服来讲,很快就会出现由顶尖坐席带着一群机器人来服务客户的情景。


02 

推理模型的主要落地场景

程子莹:推理模型对业务的助推是什么,以及与之前大模型的区别?

田凤占:原来的大模型:通过快问快答或外挂知识库的方式理解用户意图,然后去寻找知识并给出结果,但结果通常没有经过深度推理,在复杂问题上给出的答案不够准确。

举例来说,对于排障机器人,客户要描述设备的一些故障,包括故障现象、故障码等,故障因素很多,现象也很多,但故障跟现象不是一一对应,一个故障现象可能是由多个原因造成的,一个原因也会有多种故障表现。这种情况下如果用非推理模型,需要把所有故障和现象的组合关系列出来,让它查询。如果用推理模型,把知识告诉模型,它会自己去排列组合、推断,然后找出故障原因。这是一个很大的变化。

推理模型的优势:

1)在回答问题的时候,有长思维链做保障。

2)情绪感知和共情能力。跟 R1 沟通交流的时候,它能给出深度的回应,甚至超出普通人的水平。不再是原先仅处理流程化的事情,同时还能提供情绪价值。用推理模型去处理投诉,不仅可以理解客户的问题,还能很好地组织语言去安抚客户,处理好客户问题。

程子莹:还有哪些落地的案例/趋势?

冯书云:近两年来,模型的智能水平跟具体能做什么事之间是一个渐进式解锁的关系。推理模型有两个比较特别的地方,第一是更高的智能水平,对于不是一步就能得到答案的问题,推理模型给出更好的结果。就像田博士说的,在客服这个领域能够得到较好的运用。

第二个特点是它的思维链能力,大家不仅能看到它的答案,而且能看到推导过程。由于大模型无法做百分百的准确度,让用户在交互过程中对于得到的答案处在一个未知且无法全然相信的状态中。思维推导可视后,不仅答案的可信度变得更高,推导过程也能让用户更放心;如果是开放性问题,用户也能得到更多启发。

当前比较确定的几个场景:

  1. 工具类:AI 搜索、客服(C 端)、办公(如 PPT 制作)

  2. 娱乐类:陪聊类,之前是恋爱的拉扯感,现在不仅能看到说什么,也能看到它在想什么。

DeepSeek 的出现对业界是一个鼓励,用户能够真正理解大模型的智能,并愿意为其买单。

程子莹:推理模型在实际应用中有哪些增量场景?

陈杰:我先讲讲汽车行业这块,对于车企来说如何用好 DeepSeek。目前在车企还是更多以智能座舱为主,C 端用的最多,包括智能交互、跟 POI 相关的定位、路线规划。现在有些车企也在做短期记忆或者说跟车主行为相关的输出,比如(车主)今天上车的路线习惯都可以通过这部分加入。

回到问题上,我们看到有明显质变的场景还是在一些复杂任务层面上。比如在金融领域,今天要做个股推荐或者投研投顾,原有的情况是,我想让它给我推荐一支股票,我会告诉它我大概的想法、我的收益率等等,输入后模型会直接生成目前股票的信息代码。推理模型出现后,它会根据我的行为习惯、大盘、以及市场热度分析,思考后按照不同的维度和逻辑给我不同的建议。

第二个是教育场景,原来的大模型存在于 K12 教育,给学生出题解题、答题分析。现在推理模型能把它上升到一些更深入的研究范围,比如说大学、研究生的问题,或者说在一些复杂的研究场景上,拿到计算数据后,模型能够把计算逻辑、推导方式的原因拿出来,这也是一个质的变化。

程子莹:未来有哪些潜力场景值得关注?

陈杰:教育、设计、代码生成这三类最适合使用推理模型。在教育领域,如果要去解题或出题,或者涉及更高阶的教育,R1 能通过推理的方式去做。而且不仅限在数学上,化学、物理以及人文历史都可以通过推理方式去呈现。

在代码生成这块,最开始大家用到的是辅助纠错,但其实很多时候在生产层面上不太会用到,还是不如人做的好。在 R1 出现后,在整个推理过程中,能让代码生成的效率更高、更准确,并达到最终目的。

另外就是逻辑推理,处理一些复杂、模糊的任务,生成各类 agent 去处理不同的东西。R1 能够自己定义出不同 agent 需要的能力,或者定义一个 agent 集合体,判断不同的任务最终做集合。

总之,像一些高精尖的产业,原来完全需要人脑的事情,慢慢都会通过推理模型去辅助。

程子莹:怎样通过 AI 技术解决数据清洗和预处理难题,有没有全自动化解决方案?

田凤占:我们基本上是自动、加少量人工的方式。比方说在复杂数据的分析上,我们现在也在用大模型来实现。我们有客户是汽车行业的,会邀请潜在客户去 4S 店里试驾。邀约过程中的对话隐藏着很多有价值的信息,比如对车型的偏好、竞品评价、价格敏感与否等,这种信息我们现在都用大模型去提取,比 NLP 的效果好很多。像数据的标签提取、实体抽取、数据格式转换,现在我们基本上都是用大模型,再加上少量代码的控制,就能处理到 95% 以上的精度,大幅度提高了处理效率。


03 

大模型落地,

如何解决幻觉问题?

程子莹:To B 企业对 DeepSeek 应用的情况是怎样的?

田凤占:很多行业的客户都对私有化抱有很大的期待。之前想私有化没有好的模型,现在有了好的模型并且尺寸不是很大。大企业可以布全尺寸的,小企业可以用蒸馏版的,在专属场景上做一些调优,也能达到上线需求。在国内私有化部署有稳定需求,开源对私有化的生态起到了很大的推进作用。

程子莹:在客服领域,很多用户不敢用大模型去替代 NLP,因为一些幻觉和发散性问题。NLP 解决的是 Q&A,其实更简单。DeepSeek 出现后,厂商有动力去做替换了。从您的角度看,是不是有这么多需求涌现,以及对于现在想用大模型替换 NLP 的客户来说,有哪些建议?

田凤占:我们的建议是把场景拆得更细,围绕细化的场景提供针对性解决方案。比如说零售和商城的售前咨询场景,这个阶段更多是产品常规介绍,下单会转到商城去。客户更关心这个阶段访客沟通的流畅度和访客体验。这个场景客户更愿意尝试大模型,对大模型幻觉和问题发散也更宽容一些。另一个细分场景是复杂设备的售后排障。这个场景如果大模型回答错了,解决方案就错了,引起访客的不满,所以客户会非常在意大模型幻觉问题。推理模型来了之后,在排障方面会有很大提升。所以在客服这个领域,不同的场景企业的关注点会有差异。

程子莹:企业怎么做大模型幻觉的风控?

田凤占:一方面我们通过模型的微调,把企业的知识训练到模型里,一定程度能减少幻觉。第二就是利用外挂知识库(RAG),进行知识的增强和补充。第三是通过工作流和提示词的控制让模型不要自己去杜撰。最后,我们会对大模型生成的答案进行二次审核,二次校对来过滤幻觉。通过这样的方式,基本上能够解决掉 95% 以上的幻觉问题。

冯书云:我理解这个问题背后有两层。第一层是安全风控。首先它回答的内容不能涉及到色情、暴力或者是价值观不符的东西。这层火山有风控策略,类似于用模型去做风控。第二层是幻觉的问题,B 端跟 C 端不一样的是可以通过调参来调整它的发散性(temperature)。举例来说,0 相当于完全不发散,尽量以准确客观回答,但结果的生动性会较差。如果调到 1,发散性就会比较好。在不同场景的需求是不一样的,偏聊天类的场景,大家希望发散性比较好,能带来对话的趣味性。但是在一些有客观准确答案的场景里,需要做一些分级。

分级策略,首先分为两层。第一层是大模型的准确度怎么去调整,最简单的方式是通过 temperature 去调,其次提示词的输入需要加一些比较精准的要求,把它的准确率提到 90% 左右的可用性。如果业务场景本身的严肃性非常高,一般在业务流程之外还要加人工校准。这个过程会在整个业务逻辑或 workflow 里做分级处理。现在大模型尚无法实现在复杂场景中达到 100% 准确的回答,所以整个业务流程还是要结合具体场景来看如何设置,通过不同形式保证回答的准确性和稳定性。

程子莹:应用大模型解决问题时如何实现资源/算力的合理分配?

田凤占:在解决实际问题时,我们倾向于针对场景先做分类。把简单任务交给指令模型,复杂任务交给推理模型,这二者需要相互配合协同工作,发挥各自的优势。

实际项目中客户问题基本符合二八分布,20% 的复杂问题和 80% 的简单问题,但前者通常要占 50% 以上的人力去解决。也就是说虽然复杂问题少,但它占用的人力资源是更多的。这个时候用推理模型成本是低廉的,虽然比非推理模型耗时长且更贵一些,但相比于人工解决成本至少要差一个数量级。

程子莹:模型实际落地是否有模型混搭的案例?是怎样的配比?

田凤占:我们已有模型混搭的解决方案,正在实际项目中进行测试。配比跟客户的场景和具体需求有关系,无法给出一个确切的数值。从我们的项目经验来讲,混搭比只用单一模型的效果更好。

陈杰:我们现在的案例是用 DeepSeek R1 做思考,把思考的时间和豆包做结合,最后用豆包来呈现,从而解决客户时延的问题。从豆包的层面讲,是更好地把提示词做规整/总结。

程子莹:怎么用 DeepSeek R1 去微调更小的模型?在撰写提示词时有没有哪些最佳实践可以分享?

田凤占:如果想把 R1 模型微调到其他的非推理模型,或者蒸馏到其他的推理模型,这时候需要使用思维链数据,也就是思考过程数据。把这些数据拿出来去微调其他的非推理模型,把它变成一个推理模型,这是推理能力的迁移。如果是让一个更小的模型具备更多的知识和常识,就是传统的 SFT 过程。

在写提示词时,原来我们要遵循一个模板,从定义角色,说明背景和任务,到定义它的技能,然后再给它一些例子等等。在使用 R1,会极大简化原来提示词的模板,我们可以直截了当地告诉它要干什么,输入的内容是什么,以及满足什么样的约束条件。简要描述背景即可,不需要太复杂的信息;示例也不是一定需要,在有些场景中没有示例,它也可以处理得很好。R1 本身就是推理模型,它可以自己去拆解处理过程,并且能够拆更细。过多的冗余信息有时会干扰模型,推理出来的效果反而更差。


04 

哪些业务流程最适合用大模型改造?

程子莹:对于企业来说,如何识别出最具大模型改造潜力的业务流程?

冯书云:大家都会问的一个问题是什么是大模型率先落地的场景,也就是客户会为了大模型而付费。这背后的逻辑是,要么大模型帮客户挣到了钱,要么大模型帮他们省了钱。一般情况下,我们建议首先的筛选标准叫中等智力的劳动密集型工作,大量对于任务复杂度要求不高,不是前沿突破的,但又是重复性的/数量非常多的工作。这类最适合拿大模型做改造,因为它能直接降低人力成本。

大模型解决的问题,大家无非是期待两种,第一种是以前花很多人力完成的事情,现在用大模型能以很简单且低成本的方式完成。第二种是用大模型完成以前人力做不到的事情,但目前大模型的智能水平还达不到在很多场景中超越人类的智力水平。

程子莹:作为 AI 垂类公司,不想做相关技术研发,但产品端又有类似场景的用户需求,不得不做,大厂是否有商用 API 或其他解决方案?

冯书云:这个能力我们都通过一些形式去提供了,比如火山引擎,如果是扣子的企业版,里面有很多插件可以直接使用。知识库在高代码平台也是一个比较成熟的方案。以及联网的能力,现在基于扣子都能非常快地搭建。

从生态层面看,首先最大的投入在基座模型研发,再往上无论是 B 端作为 API 或 SDK 的形式被大家调用,或者 C 端因用户具体的使用需求而出现的工具,都能找到解决方案。

陈杰:火山上有一个叫实验室的功能,如果没有足够的技术能力做垂类应用,可以调用别的厂商或开发者做的相关插件和能力。只要有独特的数据源,或者其他能力,自己的内容、开发的 demo 脚本或者更多的创意,可以在整个生态里贡献自己的东西,大家通过相互共享实现生态共赢。

程子莹:企业如何让非技术类员工更好地适应大模型的快速迭代?

冯书云:谭待在FORCE原动力大会上说「企业要转型,CEO 先下载豆包」,首先要知道大模型的能力边界是什么,需要有彻底体感。其次,结合自己的业务特点和大模型的能力边界,去提升大家对于大模型的认知,以及如何在组织内部实践。

陈杰:我们对接的企业会有这种焦虑,比如非技术员工看到(大模型的发展),会担心自己会不会被替代掉。在技术发展的初期,懂 coding,懂架构的技术员工的门槛较高,护城河明显。在非技术工种里,更多提到的是 prompt engineer,这个角色不完全是怎么用代码实现,更多是怎么说好话,怎么能简单快速地让大模型理解整个任务地逻辑。我们发现真正能做好这部分的并不是原来能做好 coding 的人,更多是中文理解或者对中文更擅长的人,所以很多企业并不是让做 coding 的员工去写 PE,而是实际做业务的员工或做产品设计的员工去写 PE。


05 

对创业公司来说,

对场景的理解以及快速落地是关键

程子莹:DeepSeek 的模型跟现在的其他模型之间的关系是怎样的?

冯书云:对于火山引擎来讲是很大的利好,更多需求出现。「大模型是马拉松,现在是起步的 500 米」。这个领域会长期呈现出一个交错式领先的状态,不是竞争的状态,而是同行者的状态。不过整个曲线越来越陡峭,最后剩下的同行者越来越少。

程子莹:DeepSeek 之后(技术迭代如此迅速),企业发展路径的新思考有哪些?

田凤占:如此快的技术迭代给企业的确带来了不少挑战。举例来说,当通用大模型在某些场景适配上效果不佳时,大家会调优一个小模型。但过几个月大模型版本迭代,新的版本一发布就超过了调优小模型的效果,调优的增益大大折扣。所以我们在内部有两个关键词。第一是快,现在模型推出的速度以及应用场景的落地速度越来越快,如果我们慢了,不仅会落后于友商,甚至会落后于客户。所以我们需要对最新的东西有足够的敏感度、足够快。

第二是不要在局部细节上过分雕花,要抓住主流趋势与核心关键,底层逻辑改了,上层的构建也就失效了。这个时候要看大方向,把主流技术应用到生产上去,做更多探索。绝大多数公司最后还是要落在怎么用基础模型结合自己的场景做应用,对场景的理解以及快速落地是关键。

程子莹:如何平衡模型的复杂性与算力资源的消耗?是否有创新方案提升效率?

田凤占:首先是基模厂商在模型层面去优化。对于应用侧来说主要是怎么更好地利用模型,以更低的成本服务客户。我们更多是在部署和使用这一侧来提升模型的效率。我们看到有技术综合利用 CPU 和 GPU 的能力来进行大模型推理,我们也在测试,如果效果不错的话,会把资源消耗降到原来的几分之一。

陈杰:在这个问题上要考虑几点,复杂性高就一定计算资源消耗更多?或者说是损失计算消耗的成本,就是为了把复杂性提高?这需要在算法层面做提升。火山在做的是尽量往资源消耗少的方面去做,并且减少复杂性。

程子莹:推理模型的算法时延,从模型和算法理论的视角能提高到什么程度?

冯书云:首先无法抛开模型大小去谈理论实验的。相同的智能水平,需要的模型参数量会越来越小,速度会越来越快。现在大家测任何两个 token 之间的时间已经到了 20 毫秒,从人的视角是感受不到很明显的时延差距的。要思考的是能不能更快,以及在什么场景需要更快更智能。

DeepSeek模型登陆火山引擎——延迟对比-DeepSeek-R1

田凤占:这没有一个绝对的标准,有的场景允许更多的时延,有些场景不允许时延过长。模型的进步的确会缩短思考的时间,但并不是所有场景和客户问题都需要向着缩短时延去努力。

程子莹:作为模型服务提供商,火山引擎下一步的战略方向会是什么?

冯书云:目前整体的架构最底层是可选的模型类型,比如 DeepSeek 、字节系模型等等;再往上是工具层,比如联网的插件、知识库等;未来模型的智能水平再提升,可能会到 agent 层。

一方面,我们会提供更好的高精度、高承载力的服务平台,无论我上面使用的是哪一个模型,无论流量有多大,以及 B 端的定制需求都能满足。另一方面,作为模型提供商,字节也会提供更好的模型。第一个偏语言的模型,深度推理会是重点。第二是主线的 VLM 模型,对于图片和视频的输入能够更好地理解。

注:点击「阅读原文」可以体验火山引擎DeepSeek满血版。



图片

(文:Founder Park)

欢迎分享

发表评论