机器人视觉控制新范式!ByteDance Research新算法实现通过性能SOTA
ByteDance Research团队提出WMP(World Model-based Perception),通过模拟训练世界模型和策略,实现在多种复杂地形上的出色控制表现。
ByteDance Research团队提出WMP(World Model-based Perception),通过模拟训练世界模型和策略,实现在多种复杂地形上的出色控制表现。
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 在影视名场面分析和视频描述任务上表现突出,展示了强大的视频理解和生成能力。
ByteDance Research 的视频理解大模型眼镜猴(Tarsier)迎来了重大更新,发布了第二代模型 Tarsier2 及相关技术报告。Tarsier2 能够分析复杂的影视名场面,并对真人和动画、横屏和竖屏、多场景和多镜头的视频进行描述,其性能超越了 GPT-4o 和 Gemini-1.5-Pro 等闭源模型,在多个公开基准上表现出色。
ByteDance Research 推出的学术论文检索工具PaSa,在复杂的学术搜索场景中展示了显著优势,相比主流检索工具和强化学习模型均有提升。