Migician:清华、北大、华科重磅出击!多图像定位大模型,安防与自动驾驶的“破局者”
在人工智能飞速发展的背景下,清华大学联合实验室研发的Migician多模态视觉定位模型解决了复杂场景下的目标定位难题。该模型能结合文本描述和图像信息,在安防监控、自动驾驶、医疗影像分析及机器人具身智能等多个领域实现高效准确的目标定位,显著提升系统的感知与决策能力。
在人工智能飞速发展的背景下,清华大学联合实验室研发的Migician多模态视觉定位模型解决了复杂场景下的目标定位难题。该模型能结合文本描述和图像信息,在安防监控、自动驾驶、医疗影像分析及机器人具身智能等多个领域实现高效准确的目标定位,显著提升系统的感知与决策能力。
马腾宇创立的Voyage AI公司被MongoDB收购。Voyage AI专注于开发嵌入模型,用于改进AI应用程序性能和准确性,并已完成多个版本迭代和两轮融资。此次收购将使用户能够在统一的堆栈中更高效地开发AI应用。
计算机视觉与模式识别会议CVPR将于2025年召开,首届计算机视觉推理扩展研讨会(ViSCALE)将探讨Test-time Scaling在计算机视觉中的应用与发展潜力。
TRELLIS是清华大学、中科院和微软联合开源的3D生成方法,支持文本或图片输入,具备高效高质量生成多种3D格式(如辐射场、3D高斯等)、灵活编辑功能的特点。
展和
应用
落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!
“凡我无法创造的,我就无法真
清华大学朱文武教授团队推出的CLaMP 3是一款多模态、多语言的音乐信息检索框架,实现了跨模态检索和零样本分类等功能。它支持27种语言,并基于对比学习训练模型,使用XLM-R预训练模型实现强大的多语言文本嵌入。
Crawl4LLM是清华与卡内基梅隆联合开源的智能爬虫系统,通过评估网页对语言模型预训练的价值,节省50%以上资源并提升抓取效率和质量。
具身智能机器人研发商「星海图」近日完成A轮融资,获得蚂蚁集团独家领投及多位老股东持续加码。公司致力于实现100亿台智能体的目标,并推出多项产品如R1系列仿人形机器人,助力向全球领先企业迈进。
专注AIGC领域的专业社区报道了清华大学和中南大学联合开源的可视化交互实体AI Agent模型LEGENT。它允许用户在3D虚拟空间与智能体互动,实现包括物体操作等复杂任务。