CVPR
全日程公布|谷歌Veo 3惊艳发布后,这场CVPR分享会值得每个AI人「听个声」
CVPR 2025 论文分享会将在北京举办,主题包括多模态和视频生成。邀请顶级专家、论文作者参加Keynote演讲和圆桌对话,同时发布部分论文的摘要。
CVPR 2025 单图生成3D人体:港科广团队提出分层高斯建模框架MultiGO
港科广团队提出MultiGO方案,通过分层建模思路实现逼真人体3D模型重建,核心在于采用高斯溅射点作为三维基元,大幅提升单目图像纹理人体重建质量。
CVPR 2025 Oral DiffFNO:傅里叶神经算子助力扩散,开启任意尺度超分辨率新篇章
本文提出了一种名为 DiffFNO 的方法,利用神经算子和扩散模型解决超分辨率问题。它通过加权傅里叶神经算子、门控融合机制和自适应 ODE 求解器实现了高精度和快速推理,超越了现有技术。
迈向长上下文视频生成!NUS团队新作FAR同时实现短视频和长视频预测SOTA,代码已开源
本文由 NUS ShowLab 指导完成,首次系统性研究长上下文视频生成。提出帧自回归模型FAR,有效解决长视频训练计算挑战,显著提升长时序一致性。
4K分辨率视觉预训练首次实现!伯克利&英伟达多模态新SOTA,更准且3倍加速处理
伯克利联合英伟达提出PS3视觉编码器,首次在4K超高分辨率下高效预训练,并引入高分辨率基准测试集4KPro。该方法显著提升了高清场景下的表现和效率。
AI一周写出ICLR研讨会论文!成果简洁有效获审稿人大赞
Zochi发表的两篇论文在ICLR研讨会上通过同行评审,一篇获得了7/6/7的成绩,另一篇获得7/7的成绩。此外,Zochi还展示了其科研过程中的多智能体协作框架,并且生成了研究报告。
为什么你在国内高校实验室里发不出顶会顶刊?
文章介绍了科研过程中常见的问题,并推荐了一堂由顶会顶刊主席Dr.Chen亲自讲授的系统课程。该课程涵盖了论文选题、创新点设计、实验设计与验证、论文写作与投稿全流程的知识和方法论,适合新手快速提升科研能力和发表高影响力论文。
微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人
微软研究院开源Magma模型,首个能理解多模态输入并进行实际操作的基础模型,在CVPR会议上获得接收。该模型融合视觉、语言与动作能力,使用Set-of-Mark和Trace-of-Mark两大标注方法提高准确性。
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
第五届对抗机器学习Workshop将在2025年6月的CVPR会议上举行,主题为’基础模型+X’。研讨会旨在探讨基础模型及其特定领域应用中的鲁棒性挑战,并设立最佳论文奖等奖项吸引投稿。