Stream-Omni:多模态交互的“黄金三角”——视觉、语音、文本的完美融合
联合推出的类似
GPT-4o
的大型语言
–
视觉
–
语音模型
,
能够同时支持文本、图像和语音等
联合推出的类似
GPT-4o
的大型语言
–
视觉
–
语音模型
,
能够同时支持文本、图像和语音等
灵宝CASBOT团队提出的DTRT方法在ICRA 2025录用,通过结合人类引导的运动和力数据来估计人类意图并分配角色,在物理人机协作中的预测精度显著优于现有技术。
中国科学院自动化研究所和北京科技大学的研究团队提出了一种名为SceneX的新框架,它能根据简单的文字描述快速生成高质量、逼真的3D虚拟场景。这个框架包括PCGHub和PCGPlanner两个核心模块,可灵活应对各种场景需求,并大幅提高场景生成的效率与真实感。
极佳科技团队通过ReconDreamer实现自动驾驶场景的自由视角重建与生成。该模型仅需单视角输入视频,即可通过世界模型训练减少伪影并进行渐进式修复,显著提升大范围相机运动下的渲染质量,媲美专业三维重建技术。