视觉推理
字节开源视觉-语言多模态大模型,AI理解现实世界的能力越来越强了。
字节开源的Seed1.5-VL是视觉-语言多模态大模型,支持多种复杂任务如盲人判断红绿灯和智能导盲。其包含5.32亿参数视觉编码器和200亿激活参数混合专家大语言模型,已在多个公开基准中表现出色。
羡慕o3?豆包也可以进行图片推理了!
文章介绍了字节跳动发布的新模型豆包1.5和视觉版Doubao-1.5-thinking-pro-vision,并展示了它们在推理位置、根据冰箱内容定制食谱、判断车祸原因以及家居改造建议等方面的出色表现,对比了与OpenAI o3的差异。
OpenAI官方博客发了篇推理类模型的最佳实践,指导大家如何更好的使用o1、o3这类推理模型
OpenAI发布了推理模型的最佳实践,包括何时使用这些模型(如模糊任务、大海捞针)、如何有效利用以及一些基本原则和技巧。
慢感知–迈向视觉system2 (o1) 的第一步
StepFun多模态团队提出慢感知概念,通过感知分解和感知流动两个阶段实现几何图形精细感知。该方法在几何parsing任务上取得显著效果,展示了视觉系统2的优势。
刚刚,阶跃星辰发布Step R-mini!推理模型从此不再文理偏科
阶跃星辰发布的Step Reasoner mini是首个推理模型,擅长逻辑推理、代码和数学问题,并能进行文学创作。该模型通过强化学习训练,实现文理兼修。它在AIME 2024和Math500测试中均表现出色,且具有较好的泛化性。