多模态RAG及SQLRAG方案总结、大模型应用中的追问及Agent操作UI逻辑思考

今天是2025年4月9日，星期三，北京，天气阴。

我们今天回到具体问题，看两个主要话题，一个是GPT4O引导追问以及Agent操作电脑、手机屏幕的思考，这是具体的落地问题。

另一个是大模型相关技术总结进展，可以看看数据侧，多模态的一些动向和索引。

抓住根本问题，做根因，专题化，体系化，会有更多深度思考。大家一起加油。

一、GPT4O引导追问以及Agent操作电脑、手机屏幕的思考

早上，社区有几个有趣的话题，引发出一些思考，很有趣。

1、关于GPT4O引导追问的功能原理及产品逻辑

这个是今天社区早上的一个小讨论，起因是成员发现，GPT4o那个会引出下N个问题保持持续对话的输出效果不错，是4o结尾会问用户一些问题。这个是如何做的？感觉也是为了问而问。

这个其实就是追问，比如Ai搜索里面的。追问是产品设计，跟传统搜索一样来的，为了二次引发点击，增加交互次数，假设后面开始有收益了，有广告了。每次追问新的点击，都能产生若干次点击，那就是新的流量，就能挣钱了。从技术上看，这是一种能力，会专门微调的。之前试过还试过基于KG做追问。需要人工构造一些追问的样本，做SFT。现在用户的角度，怎么追问会更好，更高质量，用户会更爱点。

所以，这其实就是为了问而问，只是差别不一样而已。但是，追问其实还有体验兜底的作用，就是用户意图澄清，通过追问的方式把用户真实想问的东西牵出来。这是一石二鸟的打法。另外的，再扩展，这个追问的能力，还能用在别的地方，那就是query rewrite，quey expansion，就是输入侧控制。并不是只能打一个点。这就是技术的魅力。技术组产品结合的魅力。

再进一步的，GPT4O的追问至少有两类，一类是这为了让用户补充细节，这可以联想做客户系统时候的追问填槽，就是上边说的澄清类似。一类是进一步深入对话。不过4o他们现在搞了这个，其实就有很多样本了，可以实际看用户有没有按照这个追问去继续聊，就可以用这个去持续改善这方面能力。

但是，再扩展一个话题，你们觉得所谓靠用户点踩，做数据飞轮成立么？

个人观点是不成立的，因为太主观不可控，乱点，不点，恶意点的情况都会存在。所以，很多方案说在线自学习，其实都是很扯淡的，实时根据用户反馈，去丢模型在线终身学习。这个我们之前也讨论过，很扯淡，需要人工参与。这种假想只适用于人工标注平台，因为目标就是为了拿标注数据。但平台给用户，目标不一样，因此就不成立了。所以，更倾向于一个结论。这种点踩数据，价值在于做用户需求统计，假设是用户如果很在意这种问题，那么可能这个问题可能比较重要，会点，这种统计型数据相对来说比较好利用起来。而不是用来做微调训练。

那么，感觉对用户也要有一些分析，比如找出其中一向喜欢捣乱瞎点的筛掉，留下那些比较认真的是否可行？ 答案是忙不过来，兔有百窟。

又如，根据用户对话行为可以基本评判用户的素质，低素质用户甚至要降权，技术上需要精确的session管理。但这个并不妥，因为一是难识别，二是降权反产品逻辑，杀容易自损，反留存率目标。如果用户量很少，即使记录页面停留时间、记录复制按钮点击、记录下一步操作。这些数据收集上来，不过几百条，根本看不出趋势。人都不用了，那就更难了。

所以，这些事情顺下来，你会觉得哪哪都是窟窿。

2、关于Agent操作手机、电脑屏幕的一个实现逻辑原理

文章（https://mp.weixin.qq.com/s/kSUu_eHayr9MQeab2ryJrw）中关于Agent的几个点看起来是挺有收获的。

其中有问题比较有趣，在处理搜集、整理、纯文本的任务还比较好用，但是带有复杂的浏览器操作的时候会卡住。是不是因为国内网页网站可能设计得并不够好，限制了AI的能力增长？

对应的回复是，首先第一个并不是因为网页本身设计不好，我们叫点儿背不能怪社会。大部分人都可以用，为什么Agent不能用呢？我们更多思考的是这个问题。大家仔细体会可以体会到一个问题，当前通用Agent的产品，想要落地，有一个“木桶原理”不能有明显的缺项。

为什么（Agent）会找不到输入框？有几个可能，第一个可能视觉理解能力不如人，如果有弹窗遮住这些问题，可能是处理意外情况的这种能力不够，再深度推理的话，泛化能力不够，最终归结为它基础能力上的某一个缺项。

Agent真正产生实用价值，文本处理、思考、操作、环境感知和理解、应用工具和调用工具、反复尝试等能力，不能有明显的短板。有明显的短板存在，就会导致应用成功率急剧下降。所以一直坚持所有的模型都会做，包括语言、多模态的Agent。

顺着这个，如果真的要去做电脑或者手机的操作，那么入口就是对屏幕的理解，这个理解的任务的本质是目标检测+后续的决断。实就如微软开源的ominparser，代码: https://github.com/microsoft/OmniParser/tree/master，模型: https://huggingface.co/microsoft/OmniParser-v2.0，Demo：https://huggingface.co/spaces/microsoft/OmniParser-v2。

而就目标检测而言，挑战在于多样性，因为网页设计千变万化，并且还有是假链接。

核心还是数据多样性如何保障，以及如何做网页交互，比如遇到假链接如何反馈出来。而进一步的，这个不单单是用于agent，很接近的就是当前的爬虫系统，其实也是很难做到统一性的，网页的内容组织各异。

而进一步的，去看如何操作电脑，其实有一一些开源项目，如下面这个例子：

代表性的，可以看看https://github.com/browser-use/browser-use

二、语音数据侧、多模态RAG及SQLRAG方案

1、数据侧进展

开源语音数据进展，《ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5》(https://arxiv.org/abs/2409.18584)发布，ChildMandarin和SeniorTalk两大语音数据集，覆盖3-5岁低幼儿童和75岁及以上的超高龄老年人，可以为面向儿童与老年人的语音识别、语音理解、语音分析等技术的发展提供宝贵资源。

儿童数据集Github地址：https://github.com/flageval-baai/ChildMandarin，HuggingFace地址：https://huggingface.co/datasets/BAAI/ChildMandarin。老年人数据集，Github地址https://github.com/flageval-baai/SeniorTalk ，HuggingFace地址：https://huggingface.co/datasets/BAAI/SeniorTalk

2、RAG相关技术总结侧进展

首先，在多模态RAG方面，Awesome-RAG-Vision：计算机视觉领域中检索增强生成（RAG）总结，涵盖图像理解、视频理解、视觉生成等多领域应用的研究论文和教程资源: https://github.com/zhengxuJosh/Awesome-RAG-Vision，是很好的索引，包括面向图像的，视频的，以及混合多模态的。

同样的，关于RAG的技术汇总：Awesome-RAG：https://github.com/Danielskry/Awesome-RAG，指引的都不错，也可以备查。

也有SQLRAG方案，《Retrieval augmented text-to-SQL generation for epidemiological question answering using electronic health records》，https://arxiv.org/pdf/2403.09226，核心思路是将文本到SQL生成与检索增强生成（RAG）相结合，以使用EHR和索赔数据回答流行病学问题，通过在文本到SQL过程中集成医学编码步骤来提高性能。

可以看其中召回sql对的逻辑，重点看这个图：

核心逻辑在医疗编码步骤是如何集成到文本到SQL过程中的？

技术实现逻辑如下：

首先，使用大模型从自然语言问题中提取医疗实体。接着，将这些医疗实体插入到SQL查询中作为占位符（例如，[condition@disphagia]）。

然后，使用SapBERT嵌入模型计算每个实体与SNOMED本体术语的余弦相似性，选择前50个匹配项。通过进一步的LLM提示验证是否应将该代码分配给输入实体，从而调整占位符。

最终生成的SQL查询包含了归一化后的医疗代码，可以在符合OMOP CDM的数据库上正确执行，以检索所需的数据。

这种占位符其实就是符号化的方法，可以提高一定的泛化性。

参考文献

1、https://mp.weixin.qq.com/s/kSUu_eHayr9MQeab2ryJrw

（文：老刘说NLP）

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

一、GPT4O引导追问以及Agent操作电脑、手机屏幕的思考

二、语音数据侧、多模态RAG及SQLRAG方案

参考文献

发表评论 取消回复

发表评论取消回复