跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

多模态模型

近日前沿进展回顾及再看多模态R1推理如何做?两类、五个代表工作实现思路总结

2025年3月19日14时 作者 老刘说NLP

大多未探索的挑战。与文本推理不同,
多模态推理要求模型迭代地从图像中提取、构建和验证信息
。
关于多

分类 大模型 标签 FRE-Multi、 LMM-R1、 R1-OneVision、 多模态模型、 强化学习、 文本描述 发表评论

ICLR 2025 四川大学提出Test-time Adaptation新范式,突破查询偏移挑战

2025年3月17日23时 作者 机器之心

ver 在其主题报告中展望了基础模型的未来研究方向,其中包括了 Inference Time Com

分类 学术、 资讯 标签 MIND GAP、 基准、 多模态模型、 推理性能、 查询偏移、 跨模态 发表评论

想纠正LMM犯错?没用!NUS华人团队:最强o1反馈修正率不到50%

2025年3月16日23时 作者 新智元

新加坡国立大学华人团队提出InterFeedback框架,评估大规模多模态模型在人类反馈下的表现,结果显示最先进的LMM通过人类反馈纠正结果的比例不到50%。

分类 资讯 标签 GPT-4o、 人类交互评估、 先进模型反馈、 华人团队、 多模态模型、 新加坡国立大学 发表评论

完整态的超级 Agent 正在诞生

2025年3月14日23时 作者 特工宇宙

。」
——达芬奇
都说 AI Agent 未来会爆发,2025 年会是 Agent 元年,但 Age

分类 分享 标签 个人代理、 公司代理、 医学知识库、 多模态模型、 夸克、 角色代理 发表评论

最低调「六小虎」阶跃星辰开年首秀:Agent落地智能终端,印奇也来了

2025年2月21日19时 作者 智能涌现

阶跃星辰在2025年生态开放日上回应DeepSeek,宣布开源两款多模态模型,并提出AGI的下一个阶段应为多模态推理及AI Agent。

分类 资讯 标签 低投入、 周鑫雨、 多模态模型、 开源、 苏建勋、 阶跃星辰 发表评论

清华、中南开源3D交互实体AI Agent LEGENT

2025年2月19日8时 作者 AIGC开放社区

专注AIGC领域的专业社区报道了清华大学和中南大学联合开源的可视化交互实体AI Agent模型LEGENT。它允许用户在3D虚拟空间与智能体互动,实现包括物体操作等复杂任务。

分类 资讯 标签 LEGENT、 中南大学、 多模态模型、 大语言模型、 清华大学、 物理模拟 发表评论

DeepSeek与OmniParser V2.0 重构人机协作新范式了

2025年2月17日16时 作者 陳寳

DeepSeek与OmniParser V2.0结合,使得大模型能直接操控计算机系统完成复杂任务,引发人机交互范式迁移和智能体进化。

分类 分享 标签 OmniParser V2.0、 多模态模型、 大语言模型、 安全与隐私、 微软公司、 技术共享 发表评论

准确率最高只有48%?现有多模态大模型迎来大考!小红书&上海交大发布WorldSense基准

2025年2月13日23时 作者 极市干货

专门用于评估多模态大模型(MLLMs)在真实世界场景中全模态理解能力的基准测试集。研究发现现有的开源

分类 学术 标签 WorldSense、 全模态协作、 关键指标、 多模态模型、 方法、 研究论文 发表评论

小红书&上交多模态大模型新基准,Gemini 1.5 Pro准确率仅48%

2025年2月12日23时 作者 量子位

如何?
有新基准来衡量了。
就在最近,小红书和上海交通大学联合提出
WorldSense
,一个全新

分类 资讯 标签 多模态模型、 性能提升、 模型架构、 视觉信息、 视频帧采样、 音频信息 发表评论

DeepSeek官方开源多模态视觉理解和生成模型,谁说DeepSeek只能问答了?!

2025年2月13日23时2025年2月11日23时 作者 开源AI项目落地

DeepSeek团队发布的新多模态模型Janus-Pro通过优化训练策略、扩展数据集和扩大模型规模提升了性能,实现高质量的文本到图像生成及多模态理解。

分类 开源 标签 DeepSeek、 GenEval、 Janus-Pro、 MMBench、 多模态模型、 视觉编码解耦 发表评论
较早文章
较新文章
← 上一页 页面1 … 页面4 页面5 页面6 页面7 下一页 →

AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 多模态 大型语言模型 大模型 大语言模型 字节跳动 工业机器人 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
  • 教你用 Lovart 生成超炫 PPT 视频封面
  • 再看文档古籍修复前沿方案:定位、预测、图像重建三阶段融合思路
  • Grok 4 登场,马斯克亲自解读超级AI的诞生
  • Meta 在剑桥揭幕新的 AI 音频研究实验室
  • “20后的童年黑历史是AI造谣的”

2025 年 7 月
一 二 三 四 五 六 日
 123456
78910111213
14151617181920
21222324252627
28293031  
« 6 月    

归档

  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×