国产模型如何追上多模态OpenAI o1?你需要知道的全在这
Kimi 团队发布了最新的多模态推理大模型 Kimi k1.5,其性能与正式版 o1 最为接近。通过 Long2Short 技术,该模型能够在有限的 token 预算下实现高性能推理,提升用户体验和资源利用效率。
化解机器人的「幻觉」:北大发布OmniManip,VLM结合双闭环系统,3D理解能力大幅提升
北大师生团队提出OmniManip架构,通过双闭环系统实现VLM到机器人的泛化操作。关键设计包括基于物体的交互基元、循环规划和执行,显著提升性能,适用于多种真实任务。
354篇参考文献!史上最详尽综述:视觉定位任务十年发展系统性回顾
本综述系统性回顾了视觉定位(Visual Grounding)任务过去十年的发展历程,涵盖多种设置如全监督、弱监督、半监督等,并分析了各种数据集的表现。
1M长上下文,满血版Gemini 2.0又一次登上Chatbot Arena榜首
谷歌发布Gemini 2.0 Flash Thinking新版本,引入1M长上下文窗口,在Chatbot Arena中再次夺冠。其亮点包括强大的多模态理解和流畅的对话过程,展示了模型在多个领域的强大能力。
智谱悄悄上线清影2.0,四维能力已达T0,新晋AI视频性价比之神
智谱清影 2.0 在指令遵从、画面稳定性、画面美感和大幅度动作的能力上都有提升,生成效果令人惊喜。更新后的模型提升了38%,支持4K、60帧,基础套餐无限生成金币特效等。