人工智能应用最大的问题是数据问题,而不是技术问题

 数据才是人工智能模型应用的主要问题,也是一切人工智能的基础。



随着人工智能技术的发展,人工智能也从刚开始的聊天模型变成了能够应用到实际场景中的一项新的技术;而且随着国家大力发展人工智能技术,人工智能就像二十年前的互联网技术一样,充斥着各种机会,但同样也面临着各种各样的挑战。


但是,以个人从事一段时间的人工智能技术应用,以及个人对人工智能技术的了解来看;人工智能目前在实际应用中所存在的主要问题就是数据问题,而不仅仅只是技术问题。


当然,人工智能技术还需要时间继续发展,但以解决实际问题出发,目前的人工智能模型需要大量的行业数据做支撑。






人工智能应用所面临的数据问题




为什么说目前人工智能的应用主要是数据问题?


以目前大模型实际发展情况来看,chatGPT的出现使得大模型技术进入了一个崭新的时代;而经过这两三年的发展,大模型技术的范围也越来越广;比如视频,图片生成,自动化工具等的出现。


随着今年国内大模型DeepSeek的爆火,其最大的优点并不是解决了应用问题,而是解决了模型的成本问题;其使得中小型企业也有可能训练和部署自己的专有模型。




但从24年开始,有人提出大模型不应该仅仅停留在理论研究和技术迭代,还需要关注大模型解决实际问题的能力,也就是大模型的应用场景。


但等到真正把大模型切入到具体的应用场景中才发现,现在市面上的模型很难去满足具体行业或领域的业务需求。而仅仅只能用来搞一些创作类的工作,而且效果也不太好。


其中有一部分原因在于模型本身的问题,还有很大一部分原因就在于数据问题;数据是一切AI的基础,没有数据AI技术就像空中楼阁。




举个具体的例子来说,很多公司基于一些模型服务商做套壳,开发一些应用;但实际操作中才发现,哪些服务商提供的模型都是一些通用模型,无法解决具体领域的问题。




比如,使用文本生成模型做套壳的助手应用,你问它大而泛大问题它可能回答的还不错;但你要是问它具体领域的问题,它可能就傻眼了。比如你问它你们公司内部的管理制度等,因为缺少相应的数据,因此它就无能为力了。


以上的例子可能并不是很合适,但从技术的本质出发,技术只是技术;它的本质只是一个工具,与任何一个行业都是无关的;比如说互联网技术即可以应用于新兴行业,也可以应用于传统行业。


而人工智能技术也是如此,但要把技术应用到具体的领域,这时就需要把技术和具体领域相结合;而这个结合的点就是数据。




互联网行业有互联网行业的数据特征,传统工业有其独特的数据特征;而这也是为什么很多企业选择自己训练和微调模型,而不是直接把别人训练好的模型拿过来用;原因就是因为数据对不上。


要想把人工智能技术应用到某个行业,那么就需要根据行业特性设计符合其特点的模型结构;以及使用大量的行业数据对模型进行定制化训练。


数据是互联网时代的石油,同样也是人工智能时代的血液;所以,在以后越来越多的企业会选择定制化模型来解决实际问题,而不是仅仅做套壳应用。







(文:AI探索时代)

欢迎分享

发表评论