单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
西湖大学AGI实验室团队提出FlowDirector,无需训练的视频编辑框架,通过流匹配范式直接在数据域构造演化路径,实现高质量对象编辑、添加、删除和替换功能。
西湖大学AGI实验室团队提出FlowDirector,无需训练的视频编辑框架,通过流匹配范式直接在数据域构造演化路径,实现高质量对象编辑、添加、删除和替换功能。
传统的视频编辑方法存在多个问题,西湖大学AGILab提出FlowDirector新方法。无需反演和训练,实现高质量、准确的视频编辑,开销低且支持多种编辑任务。
西湖大学研究团队提出SLOT方法,在推理时通过优化delta参数向量调整输出词汇概率分布,显著提升语言模型在复杂指令上的表现。
近年来多模态大模型在理解和复杂推理任务中取得进展,但其对高分辨率图像(如地铁图)的理解能力仍存争议。为此,西湖大学、新加坡国立大学等团队提出ReasonMap评测基准,聚焦于高分辨率交通图的多模态推理,发现当前开源模型存在性能瓶颈,并指出强化学习后训练模型在某些维度上优于现有模型。
香港中文大学等机构联合推出FormalMATH基准测试,包含5560道经过验证的数学题。尽管大语言模型在自然语言处理和代码生成领域表现优异,但在数学定理证明任务中成功率仅为16.46%。研究提出了一套三阶段过滤框架用于自动形式化和语义一致性检测,并分析了现有LLM证明器的表现,发现代数较强而微积分较弱,存在滥用自动化策略的问题。
西湖大学的仿生潜水器‘西谷II号’完成深海海试,实现四项技术验证;上虞区成立杭州湾具身智能创新中心推动该领域发展;北京大学研发新模型简化人类角色动作生成;宾夕法尼亚州立大学开发微型柔性机器人用于医疗和救援任务;加州大学研发的卷尺启发机器人夹持器可用于水果采摘等应用。
MLNLP学术Talk邀请西湖大学鲍光胜博士分享AI与人类的差异,包括AI推理过程的表面模仿和生成文本的分布差异。报告聚焦大语言模型内在因果图结构、白盒方法检测LLM生成文本等方面。
西湖大学、香港科技大学等团队提出Niagara框架,首次有效解决单视角复杂室外场景三维重建问题。该方法结合深度与法线信息,采用几何仿射场和3D自注意力机制,显著提升细节捕捉精度及几何一致性。在RealEstate10K数据集上验证效果,优于当前最先进的Flash3D方法。
西湖大学等团队提出StyleStudio,通过跨模态AdaIN技术、教师模型稳定布局及基于风格的无分类器引导,有效解决文本驱动风格迁移中的对齐问题、布局不稳定和模糊性等问题,提升生成图像质量和稳定性。