DeepSeek的横空出世,是否撼动了ChatGPT的地位?

过年期间,DeepSeek一夜之间刷屏——朋友圈被AI生成的新春对联刷爆,家族群里的长辈们竟开始讨论“深度求索”,连年夜饭的话题都从催婚转向了“国产大模型到底有多强”。


这款由国内团队打造的智能助手,似乎踩着辞旧迎新的节点,悄然掀起了一场AI应用的“新年狂欢”,成为了就连美国总统特朗普也无法忽视的存在。而作为大模型界的“顶流”,ChatGPT,从论文润色到职场摸鱼,持续渗透生活的每个缝隙。


当现象级的DeepSeek遇上“六边形战士”ChatGPT,是国产技术的弯道超车,还是场景化创新的降维打击?这场横跨东西的AI对话,或许正在重新定义“智能”的边界……



不管圈内圈外人士,或许大家都十分好奇,DeepSeek是否能媲美ChatGPT,甚至超越它呢?本文将通过多角度来分析一下,GPT究竟能否继续稳坐神坛,还是已经岌岌可危?


(下文中用GPT代指ChatGPT,DS代指DeepSeek)


总的来讲,GPT更像一个智能的“百科全书”。过年期间总有家里亲戚长辈问我“大模型是什么”,我想了想,只能概括地回答他们——“能跟我们对话的百度”。GPT在教育、写作等领域应用广泛。它能与用户进行流畅对话,解答各种问题,是基于大量文本数据训练出来的,涵盖广泛知识。


掀起浪潮的主角DeepSeek,它更擅长垂直领域的内容生成优化,能快速生成高质量代码片段,优化算法,还可在金融、医疗等专业领域提供精准解决方案。


从大方向上对比来看,ChatGPT侧重通用对话和文本生成,适合日常交流、知识获取;而DeepSeek聚焦代码和专业领域,助力技术开发和行业应用。


这样的差异主要是由于二者在技术架构、数据训练等方面有所不同,导致应用侧重点和效果差异明显。


GPT基于Transformer架构,擅长处理序列数据,可捕捉文本中的长距离依赖关系。采用RLHF(人类反馈强化学习)的训练方法,结合人类标注数据优化模型,使生成内容更符合人类偏好。而DS采取了MoE(Mixture-of-Experts混合专家模型)架构,通过动态专家路由机制,根据不同任务分配最优专家模块。训练方法上采取了领域自适应微调(Domain SFT),针对特定领域数据进行优化,提升领域知识精度。


【图源:CCF直播】


可以说,ChatGPT架构适合通用对话和文本生成,生成内容流畅自然,但领域深度有限;DeepSeek架构在垂直领域优化能力强,擅长处理复杂任务,但通用性稍弱。


ChatGPT的技术亮点在于“零样本学习能力突出”它无需额外训练,可直接处理未见过的任务,生成合理输出,适应性强。并且随着GPT3.5,GPT4,4o的不断迭代,它的上下文长度越来越长,因此能提高话题连贯性,提升用户体验。


DeepSeek的技术亮点,首先是采用了蒸馏的方法,通俗来讲就是DS去学习其他大模型(比如GPT)的思考过程,通过“老师(GPT)教学生(DS)”的方法来训练自己,这会大大降低成本。其次采取了动态专家路由机制,根据不同任务动态分配最优专家模块,提升任务处理效率。并且其领域知识密度优化显著:PPL指标降低15-20%,在垂直领域知识精度和深度方面表现优异。


我们再从应用场景差异角度来看一下,从日常使用角度来说,教育领域用大模型的场景非常多,GPT最大的优点就是通用知识问答能力强,可为学生提供全面知识解答,毕竟它的训练数据集主要来自于通用互联网文本和书籍,涵盖海量知识。DS在复杂算法实现和系统设计能力强,可为开发者提供高效编程辅助,优化代码性能可为学生提供深入学科知识讲解,助力专业学习。


商业应用方面,DS的一大优势,也是目前人们非常关注的一个优势——可以用来炒股。DS的金融数据分析与建模能力强,可为金融机构提供精准数据分析和建模服务,助力决策制定。毕竟梁文峰是金融出身的,DS在这方面的优异表现也不愧对他多年的“深度求索”


说了这么多,我们也来亲自测评一下,究竟孰强孰弱。


DeepSeek在官网上声称,它的推理、数学、编程能力比较强。该视频测评了DS的推理、编程能力。其中编程能力通过算法和工程两个角度来评估,【DeepSeek-R1 真的那么强吗?客观评测 R1 与 o1 在编程、推理方面的效果】

https://www.bilibili.com/video/BV18rF8e4E9R/?share_source=copy_web&vd_source=23af4f169e0bbcc4d16135c4c750620b



通过专业评估指标来看,ChatGPT在MMLU基准测试中得分为86.4%,表现优异;DeepSeek得分为82.1%,在通用知识方面稍逊一筹。但DeepSeek在Codex评估中得分为78.3%,表现突出;ChatGPT得分为65.9%,在代码生成方面稍逊一筹。


其次分享些个人体验:如果比较4o与R1响应速度的话,那ChatGPT的响应速度遥遥领先,GPT平均响应时间2-3秒,非常适合日常对话,一来一回有问有答,可能一系列问题问完了,R1还在深度思考某一个问题,还在一段一段展示思考过程。


这里展开说一下,DS虽然推理能力极强,甚至要优于GPT,因为它的思维链太强大,但太强大就会导致太详细,事无巨细有的时候不一定是好事,不少用户,包括不少人都反馈DS-R1“太啰嗦了”——这有利有弊,我们得辩证地看待,弊端在于有时对于用户抛出的很简单的问题,它会考虑的太复杂,会发散思维、引申很多,像是在“生成报告”一样,而并非在“对话”
。但这也不完全是缺点,其实大家如果自己去看R1的思考过程,还是非常有意思的。光看它的思考过程也能学到很多东西,毕竟DS的“蒸馏”过程就是通过学习其他大模型的思考方式,我们何不“蒸馏”一下DeepSeek,让我们在问这一个问题的过程中能收获远超一个问题的价值,达到事半功倍的效果。


当然,DS不光只有R1,在此之前还有专门用于代码优化的DeepSeek-coder-v2,笔者也已经通过ollama在本地部署了v2,DS在v2模式下甚至响应速度要更快,适合复杂的代码任务处理。


还有一点使用体验,由于DS是本土化的大模型,我们用起来会“更有人情味”。无论是R1的深度思考过程输出的文字,还是它回答时的措辞,甚至还有“说人话”这种GPT做不到的“顶级提示词”能用来提高生成质量,各方面来看DS都会比GPT会更亲切一些。这里也贴一组从网上看到的GPT和DS互相评价对方的图,用网友的话来说就是“DeepSeek的语言表达能力高下立判”, 但GPT同样还有高科技,4o的DeepResearch功能简直是科研福音,其十分强大的文献检索能力极大的推动了科研生产力。



R1仍有很长的路要走。它们未来的发展方向也同样令人期待。ChatGPT正逐渐实现多模态融合,向多模态方向发展,融合文本、图像、语音等多种数据,提升模型性能,逐步向通用人工智能(AGI)演变。


DeepSeek目前是向领域专家系统方向发展,深化行业解决方案,提升模型专业性为不同行业提供定制化服务,提升模型应用价值。尤其对于具身智能领域,DeepSeek+Robot 的各类垂直场景应用值得期待!


读到这里,相信大家对GPT和DS的特点都已经基本了解,大家何不“深度求索”一下,为何偏偏是R1,在过年期间,如此轰动全网、甚至全世界?


这就要着眼到AI技术的本质了。当下的大模型想要实现高算力,有一个必不可少的因素就是芯片,还得是世界顶尖的芯片,通过价格昂贵的芯片,用高训练成本来堆叠高算力。目前只有英伟达的芯片能达到算力要求,而美国又对中国严格限制英伟达,导致在此之前,美国凭借OpenAI和英伟达,几乎垄断了AI领域。


但现在,有一个训练成本更低,不需要堆叠芯片也能达到类似效果,甚至在部分方面还要超越神坛之上的GPT的性能(并且还开源了),这无疑是对美国的巨大冲击,也势必在AI领域掀起一股不可阻挡的浪潮。


并且“DS开源、OpenAI不开源”的这种局面,是否让你联想到诺基亚已经凉凉的“塞班系统”,当年也是独当一面,却被横空出世的开源的安卓系统完全碾压。着眼当下,OpenAI也面临这样的困境,面临开源的DeepSeek的冲击,它将如何应对?耐人寻味。


Source:BoldLeonidas,https://www.reddit.com/r/LLMDevs/comments/1ibtmuj/olympics_all _over_again/?rdt=33809


回到一开头的问题,ChatGPT和DeepSeek这场对决,究竟孰强孰弱,抑或是难分高下?或许这个问题不需要有答案,ChatGPT是通用对话的黄金标准,DeepSeek是垂直领域的精准手术刀,为何一定要比出高下?我们甚至可以同时使用他们来帮助我们。



DeepSeek已经掀起了滚滚浪潮,掀起了通用模型和专用模型的生态位竞争,但我们也不要忘记,能帮到我们的AI,就是好AI。正确的使用它们来帮助我们,就是我们在这场浪潮下的应对方式。


来源:CAAI认知系统与信息处理专委会


(文:机器人大讲堂)

欢迎分享

发表评论