跳至内容
每时AI

每时AI

  • 资讯
  • 国际
  • 分享
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 关于我们

多模态融合

技术思考:小尺寸+两阶段式多模态文档解析模型Dolphin思路评析及PP-OCRv5更新

下午2时 2025/05/23 作者 老刘说NLP

的玩法。比如,
Dolphin检测+解析双阶段多模态文档解析
思路,效果实测并不理想,尤其是带图片的

分类 大模型 标签 Reasoning-OCR、 多模态融合、 大型模型、 手写体复杂文字、 提升效果、 用户反馈 发表评论

ICML 2025  细粒度图文对齐突破!360发布全新一代图文跨模态模型FG-CLIP

上午8时 2025/05/17 作者 PaperWeekly

自 20 年 OpenAI 发布第一代图文跨模态模型 CLIP 以来已经过去了 5 年的时间。
第一

分类 大模型、 学术 标签 FG-CLIP、 多模态融合、 文本生成、 视觉理解、 长/短标题、 难样本处理 发表评论

RAG往后发展的三点感触及语言文化分析的两个工作

下午2时 2025/05/16 作者 老刘说NLP

事情,这些都在2024年得到了很好的发展,也涌现出了许多细化的方案,GraphRAG,DeepRes

分类 大模型 标签 RAG、 多模态融合、 大模型、 数据集、 文档解析、 领域特定训练 发表评论

2024年财报解读:四维图新拿到了智驾终局的船票

下午4时 2025/04/26 作者 乌鸦智能说

的智驾淘汰赛也在悄然开启,智驾能力成为车企能否“上牌桌”的关键。
在这场关于关乎技术、生态与商业化的

分类 资讯 标签 个性化定制、 伦理安全、 多模态融合、 开源社区、 跨行业协作、 边缘计算 发表评论

Aether:上海 AI Lab 开源的生成式世界模型,探索三维时空建模与智能决策新境界

下午2时 2025/04/25 作者 小兵的AI视界

上海 AI Lab 开源的 Aether 项目通过三维时空建模和多模态融合技术,实现了生成式世界模型在虚拟数据上的出色表现,并具备对真实世界的零样本泛化能力。

分类 开源 标签 4D 动态重建、 AETHER、 上海 AI Lab、 多模态融合、 扩散模型、 生成式世界模型 发表评论

1000万上下文+2880亿参数的Llama4,却让DeepSeek们松了一口气

下午4时 2025/04/06 作者 硅星人Pro

Meta发布的Llama4系列模型包括多模态MoE架构、超长上下文支持和优化的注意力机制。通过原生多模态预训练融合方法、轻量级后训练策略等创新技术提升了模型能力。

分类 资讯 标签 Llama4、 Meta、 多模态融合、 开源模型、 注意力机制、 计算资源 发表评论

ICLR 2025 Spotlight 「免费」多模态信息助力3D小样本分割

下午4时 2025/03/08 作者 机器之心

毕业于苏黎世联邦理工学院(ETH Zurich),在硕士期间,他跟随导师 Luc Van Gool

分类 学术、 资讯 标签 多模态融合、 少样本适应性任务、 技术改进、 新视角、 研究问题、 领域发展 发表评论

复旦NLP团队提出MHA2MLA框架,将任意大模型迁移至DeepSeek MLA

下午4时 2025/03/07 作者 PaperWeekly

1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一

分类 大模型、 学术 标签 MHA2MLA、 多模态融合、 注意力机制、 混合精度训练、 硬件加速器、 纪焘博士 发表评论

首个基于统计学的线性注意力机制ToST,高分拿下ICLR Spotlight

下午12时 2025/02/17 作者 机器之心

多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,

分类 学术、 资讯 标签 ToST、 可解释性、 多模态融合、 大模型实现、 注意力机制、 统计特性 发表评论

一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了

下午12时 2025/02/14 作者 机器之心

在大家纷纷将目光投向智能体的同时,另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。
这个春

分类 学术、 资讯 标签 Matrix-Zero、 多模态融合、 强化学习、 昆仑万维、 自主探索、 行业应用 发表评论
较早文章
页面1 页面2 下一页 →

2025年 AGI AI AI技术 Anthropic ChatGPT Claude DeepSeek DeepSeek-R1 DeepSeek R1 GitHub GPT-4o LLM Manus Meta OpenAI Python Sam Altman 人工智能 人形机器人 具身智能 大型语言模型 大模型 大语言模型 字节跳动 开源 强化学习 微软 扩散模型 技术创新 智能体 木易 机器学习 深度学习 清华大学 生成式AI 用户体验 百度 腾讯 自然语言处理 英伟达 谷歌 阿里云 阿里巴巴 马斯克

近期文章

  • 小米又发新模型!MiMo-VL多模态模型开源,仅7B参数部分性能直逼R1、o3-mini
  • 字节开源多模态理解与生成统一模型,对视觉的理解到达开源顶峰,AI图片编辑能力超强。
  • Memvid:把你的文档库变成一个小巧的视频,还能瞬间搜出你想要的!
  • 清华博士辍学造人形机器人:销售额已过亿,不想做短期套利
  • 一键部署丨DeepSeek-R1 新版本小幅升级便登顶开源王座,多项评测超越 Qwen3

分类

  • 分享
  • 国际
  • 大模型
  • 学术
  • 开源
  • 机器人
  • 资讯
2025 年 5 月
一 二 三 四 五 六 日
 1234
567891011
12131415161718
19202122232425
262728293031  
« 4 月    

归档

  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月

AI新闻 | X平台 | APK反编译 | 京ICP备2024096144号 |
© 2025 每时AI • Built with GeneratePress
 下载我们的APP,AI秒送达!  立即下载
×