阶跃多模态团队提出「慢感知」概念:迈向视觉system2 (o1) 的第一步
论文提出慢感知概念,通过分解和流动感知几何图形来提高视觉系统2的精细感知能力。研究显示,慢感知能提升模型对几何线段的解析能力,并在多种指标上优于基线方法。
论文提出慢感知概念,通过分解和流动感知几何图形来提高视觉系统2的精细感知能力。研究显示,慢感知能提升模型对几何线段的解析能力,并在多种指标上优于基线方法。
Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5,其性能与正式版 o1 最为接近。通过 Long2Short 技术,该模型能够在有限的 token 预算下实现高性能推理,提升用户体验和资源利用效率。
本综述系统性回顾了视觉定位(Visual Grounding)任务过去十年的发展历程,涵盖多种设置如全监督、弱监督、半监督等,并分析了各种数据集的表现。
AI领域科研人员面临背景知识缺失、长难句和复杂图表理解困难等问题。智谱推出GLM-Realtime、GLM-4-Air、GLM-4V-Plus等免费工具解决这些问题,提高论文阅读效率和准确性。
字节团队与中山大学合作提出的 ParGo 模型,通过融合全局视野和局部细节来高效连接视觉特征和语言模型(LLM),在多项基准测试中表现优异,并被选为 AAAI 2025 的入选论文。