可灵接入DeepSeek-R1,一手实测在此:AI视频创作,不用学写提示词了
可灵视频生成产品接入R1后,通过调用AI助手设计提示词,即使输入单个字也能精准生成相关视频。DeepSeek帮助设计的提示词不仅扩充细节,还能将复杂抽象的内容具体化。新成果ReCamMaster则是镜头可控的生成式视频再渲染框架,支持多种镜头操作重现复杂场景。
可灵视频生成产品接入R1后,通过调用AI助手设计提示词,即使输入单个字也能精准生成相关视频。DeepSeek帮助设计的提示词不仅扩充细节,还能将复杂抽象的内容具体化。新成果ReCamMaster则是镜头可控的生成式视频再渲染框架,支持多种镜头操作重现复杂场景。
东南大学、香港中文大学和蚂蚁集团的研究团队提出了一种名为LMM-R1的两阶段多模态基于规则强化学习框架,显著提升了小型多模态大模型的数学推理能力。该框架在仅需240元GPU成本下训练出性能卓越且适用于工业级应用的多模态模型。
无编码器3D LMM通过混合语义损失和层次几何聚合策略提升了对3D物体的理解,不仅克服了点云分辨率变化和嵌入语义差异的局限性,在Objaverse基准测试中性能优于现有SOTA模型。
近日,香港中文大学AIRS团队提出OmniRL模型,通过大规模元训练和上下文强化学习方法解决AI泛化能力问题,实现从‘环境适应’走向‘能力泛化’的突破。
香港中文大学、北京大学和上海AI Lab的研究者提出了一种结合思维链推理的新方法来提升自回归图像生成的质量和文本一致性,显著提高了图像生成的性能。
港中文等机构研究人员开发出基于激光的人工神经元,其速度比生物神经元快10亿倍,可用于AI和先进计算领域,提升模式识别和序列预测能力。
香港中文大学、港科大与华为联合推出MagicDriveDiT,基于DiT架构设计,提升自动驾驶视频生成质量。支持昇腾Ascend NPU及NVIDIA GPU训练和推理,实现高分辨率、长时间复杂场景的视频生成。
顶尖多模态大模型在AV-Odyssey基准测试中表现不佳,无法正确分辨声音大小。研究团队提出DeafTest和AV-Odyssey评估基准,揭示音频感知仍是大模型的主要瓶颈。