Omniparser 归档

自托管的微软OmniParser图像转文本模型，让图像解析变得轻而易举

2025年3月27日11时作者 GitHubStore

微软 OmniParser 图像识别模型的自托管版本，包含训练数据集和 FastAPI 服务器实现。通过 fly.io 简单部署，并提供 API 进行图像解析与边界框绘制等操作。

2025年3月12日14时作者 AIGC创想者

autoMate 是一款基于人工智能的本地自动化工具，支持无代码自动化和全面界面控制，适用于多种重复性任务场景。

2025年2月21日0时2025年2月20日23时作者开源AI项目落地

OmniParser V2发布，准确率提升和推理速度加快。OmniParser通过视觉解析界面元素，支持大语言模型，提供高效跨平台自动化解决方案。

2025年2月18日8时作者 NLP工程化

微软发布OmniParser 2.0版本，能将屏幕截图转化为LLM可读结构化元素，提高多模态大模型的视觉识别准确度，并支持与多种语言模型集成。

2025年2月18日8时作者开源星探

微软发布OmniParser V2版本，能将屏幕截图转化为LLM可读懂的结构化元素，提高多模态大模型的视觉识别准确度。适用于自动化测试、操作等场景任务。通过像素级屏幕理解能力，支持多种大型语言模型。

2025年2月17日8时作者 AIGC开放社区

微软发布OmniParser V2版本，可将大语言模型变成AI Agent，识别精准度提升39.6%，微软开源OmniTool和Gradio支持开箱即用。