视觉推理归档

OpenAI未公开的o3「用图思考」技术，被小红书、西安交大尝试实现了

2025年5月31日23时作者机器之心

融入推理过程。它不仅 “看图”，还能 “用图思考”，开启了视觉与文本推理深度融合的问题求解方式。例如

2025年5月27日16时作者机器之心

理能力。然而，RL 在推理任务之外的应用，尤其是在目标检测和目标定位等感知密集型任务中的应用，仍有

2025年5月23日23时作者开源AI项目落地

字节开源的Seed1.5-VL是视觉-语言多模态大模型，支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型，已在多个公开基准中表现出色。

2025年5月20日16时作者机器之心

方向？」
在解这道题时，我们可以通过绘制受力分析草图轻松解决。但即使是先进的多模态大语言模型，如 G

2025年4月17日11时作者智东西

，今日凌晨，OpenAI重磅发布两大视觉推理模型
OpenAI o3和o4-mini
，这也是Ope

2025年2月21日8时作者 NLP工程化

OpenAI发布了推理模型的最佳实践，包括何时使用这些模型（如模糊任务、大海捞针）、如何有效利用以及一些基本原则和技巧。

2025年1月17日23时作者极市干货

StepFun多模态团队提出慢感知概念，通过感知分解和感知流动两个阶段实现几何图形精细感知。该方法在几何parsing任务上取得显著效果，展示了视觉系统2的优势。