落地角度看Agent搭建的稳妥到激进路线及VLLM图片分辨率策略

今天是2025年6月27日，星期五，重庆，晴

我们来看两个问题。

一个是Agent，看看推理大模型规划能力搭建Agent应用的一些变化，那些是稳妥、次稳妥、激进的思路。

一个是技术侧看文档智能，主要看多模态大模型的分辨率处理策略，看目前有哪些主流应对方案。

一、Agent应用搭建的5个问题

Agent的东西已经讲了很多了，Agent已经成为互联网的新流量入口。我们站在现在众多智能体产品，如manus，百度心响、天工超级智能体等节点上，再来看看这个问题。

1、Agent的构成跟核心？

LLM是Agent的大脑，其核心能力是 “逻辑推理 ”，其中包括多个部件

Planning Skills：对问题进行拆解得到解决路径，既进行任务规划； Tool Use：评估自⼰所需的工具，进行工具选择，并生成调用工具请求；

Memory：短期记忆包括工具返回值，已完成推理路径；

长期记忆包括可访问的外部长期存储等。

2、Agent研发的实际窘境？

Deepseek等大模型的能力持续快速提升，带动AI智能体的能力提升。

但是，现在依旧存在多个问题，例如：

大模型的能力没那么强，其不确定性直接导致；Agent的规划能力依赖于prompt工程能力，它比想象中更重要、执行起来也更琐碎；不要让Agent一次性做复杂的推理性规划工作，而是把复杂任务人工拆解后再教给Agent；

Agent的Action能力强烈依赖于基座模型的 functioncalling能力。在规划Agent之前，对模型的functioncalling能力要充分调研；

3、Agent开发的最稳妥路线-低代码平台Agent？

既然大模型能力不行，那么就直接把大模型当啥子好了，不让它做规划，只让他做一个单点的执行，但这种做法做出来的，与Agent的初衷背道而驰。

最稳妥的Agent开发范式，就是人工定义好实现流程，低代码平台开发，例如，Dify应用开发平台，多模型支持、可视化工作流设计、检索增强生成（RAG）、API 接口与 SDK、数据与监控等核心功能，适用于企业知识管理、智能客服与问答系统、代码助手、自动化办公等场景。

4、Agent开发的次稳妥路线-交互型平台Agent？

最稳妥的Agent开发范式，就是人工定义好实现流程，低代码平台开发。但这个太慢，是否可以做个折中？

其实是可以的，这个也是一个趋势，

实现方式：每一步出llm结果，人工编辑确认执行。对于用户不清楚的问题，llm以多轮追问的方式进行引导->用户确认，迭代至意图信息完整，然后再最终生成结果，例如如下天工智能体的人工接入补充信息的中间过程：

5、Agent开发的激进路线-纯自动平台Agent？

激进路线，就是全放开让大模型去做Agent，但这块容易受到通用性的挑战，也需要做大量的prompt工程或者流程设计，例如manus等为代表。

这个不是很可控，并且很容易陷入死循环，或者耗费大量token。

二、视觉大模型的图片分辨率策略有哪些？

现在视觉多模态模型，尤其是在处理文档图像时，图像的分辨率的处理逻辑直接影响模型效果，这连同数据成为两个重要工程性工作。

很自然的想法，就是分辨率越高越好，但是其中的Transformer的注意力机制导致Token数量增加时计算量激增（如Qwen2-VL处理4K图像需16K Token），分块策略易丢失全局结构，无损缩放则计算成本高。

所以，目前也有一些新趋势。比如，渐进式分辨率思路，InternVL2从低分辨率开始训练，逐步过渡到高分辨率，或者采用多阶段微调方案，如LLaVA-UHD冻结视觉编码器，仅微调重采样器和LLM，缩短训练周期。

所以，当我们看现有的主流模型时候，可以挖掘出其中的一些典型处理措施。

具体的：

1）InternVL2采用动态切块策略，将图像分割为多个448×448像素块，同时配合Pixel Shuffle技术降低计算量。

2）Qwen-VL通过Naive Dynamic Resolution机制，移除绝对位置嵌入改用2D-RoPE，实现任意分辨率处理。

3）LLaVA-UHD采用图像模块化策略，将高分辨率图像分割为可变大小的切片，并通过视觉Token压缩技术减少计算负担。这种方法能保持任意宽高比，避免信息丢失。

4）LLaVA-Next采用双分支处理（切图和缩放），同时保留全局语义和局部细节，实现动态高分辨率。

5）MiniCPM-V系列采用”全局缩略图+局部网格切片”方案，通过复杂的分块算法处理高分辨率图像；

6）Qwen2-VL则通过自适应缩放和维度重排直接处理原始图像，避免切割导致的信息断裂。

那么，是否可以再总结下，形成一些可用的策略？大致就是如下几种：

1）动态分块与切片（Patch Partition）策略

其思想在于将高分辨率图像分割为多个子图，分别编码后融合特征，避免整图缩放导致的细节丢失。

在具体实现上，主要包括自适应网格划分、全局缩略图补偿以及Token压缩几个实现步骤，例如：

自适应网格划分方面，根据图像宽高比动态计算最优分块数量（如m×n网格），确保子图宽高比接近预训练标准（如14的倍数）。

全局缩略图补偿方面，在分块基础上添加低分辨率全局图（如MiniCPM-V系列），保留整体结构信息，解决分块导致的语义割裂问题。

Token压缩方面，使用重采样器（如LLaVA-UHD的Q-Former）压缩子图Token，将可变长度视觉特征统一为固定长度，降低计算开销，这个主要冲着降低计算量去的。

2、无损自适应缩放（Resolution-aware Scaling）策略

无损自适应缩放的核心思想在于，直接处理原始分辨率图像，通过维度重排和缩放减少像素损失。

在具体实现上，主要包括如下几点：

一个是分辨率微调，例如Qwen2-VL将图像调整至28的倍数分辨率（如1365×2048 → 1372×2044），确保与视觉编码器的Patch机制兼容。

一个是动态Token生成，移除ViT的绝对位置嵌入，引入2D旋转位置编码（2D-RoPE），支持任意分辨率生成可变数量视觉Token（低至4个）。

3、局部-全局特征融合（Hybrid Resolution Encoding）策略

局部-全局特征融合策略也是一种常用方式，其核心思想为，并行处理低分辨率全局特征和高分辨率局部特征，选择性融合关键信息。

而既然要用到全局信息和局部信息，因此，可以采用双分支编码器，如Mini-Gemini，一路编码低分辨率全局语义，另一路提取高分辨率局部特征，通过交叉注意力检索关键细节。

也可以采用多尺度特征池化，如S2-Wrapper，将不同尺度子图特征池化至统一空间尺寸并拼接，增强细节感知。

（文：老刘说NLP）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

一、Agent应用搭建的5个问题

二、视觉大模型的图片分辨率策略有哪些？

发表评论 取消回复

发表评论取消回复