视觉语言模型归档 - 第3页共4页

AI自动化黑马！3B小模型吊打GPT-4？这款开源神器让AI替你上班！

2025年3月5日8时作者开源星探

Proxy Lite 是一个仅3B参数的开源视觉语言模型，通过轻量级设计和低资源占用特性，提供高效、便捷的网页自动化操作体验。它能够像真人一样观察浏览器状态、思考决策并执行任务，适用于网页抓取、自动表单填写等多种场景，帮助开发者构建AI驱动的浏览器控制系统。

社区供稿 | 阿里国际 Ovis2 系列模型开源: 多模态大语言模型的新突破

2025年2月22日14时作者 Hugging Face

Ovis2是阿里巴巴提出的新型多模态大模型架构，显著提升了小规模和大规模模型的能力密度，并增强了思维链推理能力、视频处理能力和多语言OCR能力。它已在OpenCompass上展示了卓越的性能，并在多个数学推理榜单中排名前列。

李飞飞S1成本仅50美元性能媲美Deepseek-R1，Logic RL成功重现了 DeepSeek R1 Zero 模型

2025年2月7日12时作者每日AI新工具

本文介绍了5个AI和机器学习相关项目及工具：s1用于测试时间缩放提高推理效率；R1-V通过强化学习提升视觉语言模型泛化能力与训练效率；deepseek.cpp是一个基于C++的CPU-only推理实现，旨在为DeepSeek大语言模型提供支持；Logic RL成功复现了DeepSeek R1 Zero逻辑难题数据集上的问题解决能力；OpenHealth则是一款本地运行的AI健康助手。