RAG只能应用于文本检索吗?关于大模型应用之RAG——检索增强的思考

 RAG是一项入门很简单,但实际操作起来却很困难的技术之一;RAG是模型无关的独立技术栈,它的核心是文档和检索,RAG本身并不具备生成的能力,结合模型才具备生成能力 



最近在做RAG方面的应用,关于RAG技术很多人应该都了解过,毕竟其也算是大模型应用的一个主要方向;具体应用场景有智能客服,搜索引擎优化,教育辅助等。


在传统的印象中,RAG技术结合LLM(Large Language Model)大语言模型,做文档类检索增强;但RAG仅仅只能用来处理文档类文本吗?


RAG仅仅只是一项技术,一个工具,它和其它技术是相互独立的;它可以和具体的应用场景相结合,来解决实际问题。






关于RAG应用的思考




在RAG应用的过程中,最近两天突然有了一个想法,那就是RAG结合LLM模型;对具体的LLM模型有要求吗?简单来说就是,是不是任何一个LLM模型都可以用到RAG技术?


可能说到这里有些人还不是很理解,举例来说LLM语言模型有多种任务类型,有翻译类任务模型,情感分类模型,生成类模型和问答,摘要模型等。




是否某些模型不能使用RAG技术?


但是转念一想,RAG技术和大模型技术一样,它是一项独立的技术;即使没有大模型RAG技术也是独立存在的;RAG并不是大模型技术的子领域。




比如说,在搜索引擎领域也可以应用到RAG技术;而且RAG技术的本质是建立一个外部知识库,然后能够进行更加复杂和准确高效的检索,最后把检索到的内容返回给调用者就可以了,这里的调用者可以是任何人;比如说能够在海量文档中准确快速地检索到我们需要的内容。


所以RAG就类似于建立一个档案馆,然后能够快速准确地找到需要的资料;至于是大模型需要这些资料,还是搜索引擎需要这些资料,就不是RAG需要操心的了。




和传统的字符匹配或简单分词不同,RAG需要做到的是语义检索;举例来说,描述爱情的句子中并一定需要出现爱情两个字;而传统的字符匹配机制,只有出现爱情的时候才能匹配到相应的内容。


ok,上面说了RAG是一项独立的技术,和大模型没有直接关系;那么是否可以发散一下思维,RAG除了进行文档增强之外,是否可以应用于图像检索增强,以及文字图像混合检索增强?


以上问题从理论上来说是完全可行的,因为RAG主要负责的就是资料的维护和检索;至于怎么使用这些资料就不关RAG的事了。而对RAG来说,文档资料和图像资料没有本质上的区别。




因此,把RAG应用于大语言模型那么就是文档RAG,而把RAG应用于图像大模型,那么它就是图像RAG,而RAG应用于多模态那么就能实现文本和图像的混合检索。


当然,虽然从理论上来说RAG和模型无关,使用什么模型是你自己的事;但不同的模型还是有一定的区别,比如说模型的上下文长度,大模型的质量也就是理解和生成能力等。


RAG并不依赖于具体的模型,但不同的模型在适配性方面可能会存在一定的差别。







(文:AI探索时代)

欢迎分享

发表评论