VLM 归档 - 每时AI

CVPR’25 感知性能飙升50%！JarvisIR：VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气

2025年6月17日23时作者极市干货

arvisIR 是首个将视觉语言模型（VLM）作为控制器的智能图像恢复系统，通过动态调度多个专家模型

2025年5月27日14时作者小兵的AI视界

的
OCR
技术在处理复杂文档时常常面临准确率低、格式混乱等问题，尤其是在处理敏感信息时，数据隐私和

2025年3月25日16时作者机器之心

答案的情况，比如以下例子：
根据视频中本车的动作，它接下来最有可能立即采取的行动是什么？
A：右转，

2025年3月10日23时作者机器人开放社区

智元机器人发布首个通用具身基座大模型——智元启元大模型（Genie Operator-1），基于Vision-Language-Latent-Action(ViLLA)框架，由VLM和MoE组成，实现小样本快速泛化。

2024年12月27日10时作者每日AI新工具

本文介绍了5款AI模型和技术产品：CogAgent改进视觉语言模型的GUI代理；DeepSeek-V3参数量大的混合专家语言模型；Valley 2.0字节跳动开发的多模态大模型；devb.io简化生成开发者个人简历的过程；Memory Layers提供大规模分布式训练的参考实现。