两个提高图片分辨率工具，抱抱脸开源Smolagents工具，使用多模态把pdf转成md

关注我，记得标星⭐️不迷路哦～

✨ 1: Infinity

Infinity 是一种基于位的自回归建模方法，能够高效合成高分辨率图像，表现出强大的缩放能力。

Infinity是一个基于位级自回归建模的视觉生成模型，旨在合成高分辨率和逼真的图像。它通过一个无限词汇量的标记器和分类器，以及位级自我修正机制，重新定义了视觉自回归模型。此方法可以理论上将标记器的词汇大小扩展到无限，同时扩大变换器的规模，从而大幅提升模型的生成能力。

Infinity的未来版本Infinity-20B正在开发中，预期将提供更强的生成能力和更高的分辨率。随着模型的不断演进，它有潜力在创意艺术、广告、游戏开发等多个领域得到更加广泛的应用。

地址：https://github.com/FoundationVision/Infinity

✨ 2: InvSR

InvSR是一种基于扩散反演的新型图像超分辨率技术，支持灵活的采样步数。

InvSR（Arbitrary-steps Image Super-resolution via Diffusion Inversion）是一种基于扩散逆转的新型图像超分辨率技术。该方法旨在利用大型预训练扩散模型中蕴含的丰富图像先验信息，以提升超分辨率的性能。InvSR引入了一种部分噪声预测策略，用以构建扩散模型的中间状态，并将其作为采样过程的起始点。该方法的核心是深度噪声预测器，可以估算正向扩散过程的最佳噪声图。经过训练后，这个噪声预测器能够在扩散轨迹上部分初始化采样过程，从而生成高分辨率的图像。与现有的方法相比，InvSR提供了一种灵活高效的采样机制，支持任意数量的采样步骤，从1步到5步。即使在单步采样情况下，InvSR的性能也优于或可与最新的最先进的方法相媲美。

地址：https://github.com/zsyOAOA/InvSR

✨ 3: PeterCat

PeterCat是一个智能答疑机器人解决方案，专为社区维护者和开发者提供高效的技术支持。

PeterCat 是一款专为社区维护者和开发者设计的智能答疑机器人解决方案。它提供了对话式答疑 Agent 配置系统、自托管部署和一体化应用 SDK，让用户能快速创建和集成智能答疑机器人，提升技术支持效率。

地址：https://github.com/petercat-ai/petercat

✨ 4: Smolagents

Smolagents是一个简洁易用的库，可帮助您轻松构建和运行强大的智能代理。

Smolagents 是一个轻量级的库，旨在通过几行代码即可构建和运行强大的智能代理。该库设计简洁，逻辑代码量约为一千行，保持了最小化的抽象层，有助于用户快速上手。

地址：https://github.com/huggingface/agents

✨ 5: Vision Parse

Vision Parse 是一个基于视觉语言模型的工具，可以将 PDF 文档智能转换为格式化的 Markdown 内容。

Vision Parse 是一个基于最先进的视觉语言模型的工具，旨在将PDF文档转换为格式美观的Markdown内容。该工具不仅能高效提取文本和表格，还能智能保留文档结构、样式及缩进，支持多种视觉大语言模型（Vision LLM），如OpenAI、Llama和Gemini等，从而提高提取的准确性和速度。Vision Parse 能够处理多页PDF文档，并能通过将每页转换为byte64编码的图像进行处理。此外，它还支持Ollama进行本地模型托管，确保文档处理的安全性及离线使用。

地址：https://github.com/iamarunbrahma/vision-parse

（文：每日AI新工具）

一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

✨ 1: Infinity

✨ 2: InvSR

✨ 3: PeterCat

✨ 4: Smolagents

✨ 5: Vision Parse

发表评论 取消回复

下载每时AI手机APP

发表评论取消回复