清华推出开源具身智能框架:用VLM解决机器人动作异构一致性难题,性能超越14倍参数对手

清华大学智能产业研究院联合商汤研究院等机构发布首个基于通用动作空间的具身基础模型框架UniAct,解决了具身智能中的动作空间异构一致性难题。通过视觉语言模型实现跨模态泛化,在多项权威评测中超越参数量达14倍的OpenVLA对手。

可灵接入DeepSeek-R1,一手实测在此:AI视频创作,不用学写提示词了

可灵视频生成产品接入R1后,通过调用AI助手设计提示词,即使输入单个字也能精准生成相关视频。DeepSeek帮助设计的提示词不仅扩充细节,还能将复杂抽象的内容具体化。新成果ReCamMaster则是镜头可控的生成式视频再渲染框架,支持多种镜头操作重现复杂场景。

SmolDocling-256M-preview 是一个多模态的图像-文本到文本模型

SmolDocling-256M-preview 是一个多模态的图像-文本到文本模型,专为高效的文档转换而设计,能够处理科学和非科学文档。