微软GUI智能体OmniParser二代开源!推理延迟降低60%,大模型玩手机更溜了
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
OmniParser V2通过更大规模的数据集训练,提升了对小图标检测的准确率和推理速度。其与LLM结合后在多个基准测试中表现优异,平均准确率达到39.6%。
DeepSeek研究团队发表LADDER论文,介绍一种通过递归问题分解和强化学习提升AI模型能力的新方法。该方法使7B规模的Qwen模型在MIT Integration Bee比赛中得分达到90分,超越了o1的成绩。
最近AI圈最炸的瓜,是开源复刻Manus的项目Manus。Manus能远程开Ubuntu容器、自动挂载数据、做规划和执行任务。OWL项目直接复刻并超越了Manus的表现,已经开源。
5人团队3小时完成开源复刻版OpenManus,展示了模块化Agent系统、实时反馈机制及强大工具链等关键要素。通过对比官方demo和开源成果,揭示了实现Manus的合理路径及其背后的三大核心技术:模块化Agent系统、透明思维过程以及协作工具集。
Mistral AI发布OCR模型Mistral OCR,以94.89的综合得分登顶Hacker News热榜。支持多语言、处理速度快,已在la Plateforme提供API服务。
Mistral AI 推出 OCR(光学字符识别)API Mistral OCR,号称「世界上最好的 OCR 模型」。该模型能够准确识别文档中的每个元素,并从复杂文本和图像中提取内容。