“ 神经网络技术从理论到应用是一个庞大的体系,我们需要知道的是这个体系是怎么构成的,每一层都有哪些内容 ”
关于大模型我想很多人都会有这样或那样的问题,最基础的就是不知道大模型是什么,技术场景和业务场景分不清楚;也不知道大模型有哪些能力,然后利用大模型能做些什么。
因此,今天我们就来梳理一下大模型体系,从技术到应用之间的关系,以及各个环节所涉及到的技术。

大模型体系——从技术到应用
大家之所以搞不明白大模型,最根本的原因就是对大模型没有一个完整的认知;所以我们今天从多个维度来了解一下大模型的构成和应用。
神经网络大模型
首先大模型是指拥有巨大参数量的神经网络模型,简单来说大模型就是指神经网络;而神经网络是机器学习中的深度学习,通过模仿人类的大脑构造来实现人工智能的一种方式;本质上是一种仿生学。而不论是机器学习,还是深度学习都是实现人工智能的一种方式。
其关系如下图所示:

了解了神经网络与人工智能的基本关系,那么我们下面就来详细了解一下神经网络模型,也就是大模型。
说一句大家可能觉得是废话的话——神经网络只是神经网络,它只是一门技术。
关于神经网络的基础组成可以看之前的文章,从一个简单的神经网络模型开始;简单来说由神经元组成的模型就是神经网络,不论这个模型是简单还是复杂,是就一个参数还是有一亿个参数。
神经网络就是神经网络,它不是任何其它的东西,好好理解这句话。
神经网络与其它技术的结合
神经网络作为一门技术,那它的作用就是用来解决问题;而作为我们人类交流和理解的主要方式,语言,音视频就成了神经网络技术主要的切入场景。
自然语言处理——NLP,计算机视觉——CV,音频处理——Audio;所以把神经网络与NLP任务相结合就有了自然语言处理的大模型,比如常见的chatGPT,DeepSeek等;而把神经网络技术与CV结合的有图片和视频模型,比如Sora等。
而为了解决这些任务中的难题,就诞生了多种不同的神经网络架构,比如Transformer——自注意机制架构,RNN——循环神经网络架构,CNN——卷积神经网络架构等。
Transformer和RNN架构常用来解决NLP任务,CNN常用来解决CV任务;当然,现在由于技术的发展,不同的神经网络架构也能解决其它领域的问题,因此出现了很多混合架构的模型。
比如说,能够同时处理文章,语音,视频等任务的模型,被称作多模态。所以,多模态和单模态是从数据处理的类型进行区分的。
如下图所示:

上面只是举了几个简单的,也是比较经典的神经网络模型;当然,现在由于具体的任务类型,又产生了很多新的网络模型,比如LSTM,Gan网络等;其实本质上都是为了解决特定问题或某一领域问题设计的架构。
所以,现在理解上面那句废话,神经网络只是神经网络了吗?
神经网络只是一种技术,它就是一种由神经元构成的结构体,它和具体的任务没有关系;而是把神经网络技术与具体的任务结合再一块之后,才形成了各种各样的神经网络架构和模型。
当有了这些架构之后,神经网络就有了手段或者说工具,就可以在具体领域中解决实际问题了;但由于每个领域中存在各种各样的问题,因此就根据不同的问题产生了不同的任务类型;比如说NLP中有情感分类任务,翻译任务,文本生成,对话任务等。而CV中同样存在图片分类,图像识别等任务。

而这些不同的任务类型,就是利用神经网络技术与具体的场景相结合而设计的不同的神经网络架构用来解决的问题。
当然,神经网络只是一种技术手段,这些任务类型也不是因为神经网络才出现的;而是这些场景中存在这些任务,然后使用神经网络作为工具来解决这些问题。
而且,在某些任务中,神经网络的表现可能还没有其它机器学习模型效果好,成本低。
所以说,神经网络并不是万能的,需要具体问题具体分析。
在这几种任务场景中,最困难也可以说最复杂的应该就是NLP任务了;原因在于自然语言处理中,涉及到复杂的语义关系和逻辑关系;因此在NLP任务中,还出现了两种典型的类型,生成模型和推理模型。
比如说大名鼎鼎的DeepSeek的V2/3模型就是典型的生成模型,而R1模型就是典型的推理模型;当然,并不是说生成模型就不具备推理的能力;而是说推理模型在逻辑推理方面经过强化,比如说通过Cot思维链的方式来提升模型的推理能力。
当然,目前来看模型的推理能力就像涌现能力一样,它就是一个黑箱,目前还不知道为什么大模型会具备推理能力。或许就像人类一样,当你了解基础的知识体系之后,自然就能够进行更高层次的思维。
当然,神经网络与不同任务还有很多结合场景,比如以NLP为基础的代码生成模型Claude和一些用来进行数据分析的模型,这个就需要用户和开发人员不断的进行挖掘。

以上都是关于神经网络模型,也就是大模型本身能力的介绍;简单来说,只要你模型做得好,它就能拥有以上的能力。
但有一个问题就是,怎么把大模型应用到我们的工作和生活中,以此来提升工作和生活的效率。而这就需要大模型拥有一种工具来与外界交互。
虽然说我们可以通过API或聊天窗口或其它方式来使用大模型,但大模型并不具备使用外部工具的能力;简单来说就是,大模型能力再强,都无法去使用我们制造的工具来解决问题。仅仅只能通过聊天等形式,利用大模型本身的能力,来给我们提一些建议,生成一些文字或图片。
所以,我们就需要一种方式让大模型使用外部工具,而这就是Agent技术,一种使得大模型能够自主和外部环境进行交互的技术,也就是我们常说的智能体。
而大模型是怎么实现Agent功能的呢?
这里就用到了Function call和现在很火的MCP协议,一种让大模型能够通过统一的方式去使用外部工具的中间层协议。

还有一种技术叫做RAG技术,原因就在于补充大模型天生的缺陷,数据更新不及时,就类似于给大模型配了一个资料室;让它能够从外部资料库中获取需要的数据。
学习一门技术,要从基础理论到具体实践都要熟悉才能真正做到技术闭环;否则你永远无法了解技术的本质。
(文:AI探索时代)