清华大学
视频生成的测试时Scaling时刻!清华开源Video-T1,无需重新训练让性能飙升
研究团队首次提出Video-T1方法,通过Test-Time Scaling显著提升视频生成性能,提出Tree-of-Frames方法优化搜索效率和生成质量。
清华&哈佛4D语言场建模新方法,动态场景精准识别|CVPR2025
清华大学和哈佛大学的研究团队提出了一种新的方法4D LangSplat,利用视频分割模型生成物体级语言描述,并通过大语言模型提取高质量的句子特征来重建动态语义场。该方法解决了现有静态语义场重建在动态场景中的应用难题,显著提升了时间敏感查询的准确性。
一张图,快速生成可拆分3D角色!腾讯清华新SOTA CVPR 2025
腾讯AI Lab和清华大学提出的新模型StdGEN能够在3分钟内生成具有精细细节的可分拆3D角色,质量超过现有方法。StdGEN使用语义感知的大规模重建模型从多视角图像中联合重建几何、颜色和语义信息,并通过迭代优化提高质量。
ICLR 2025 Oral|突破深度学习求解PDE的瓶颈,清华提出空间调控新范式GridMix
本文介绍了一种新的神经网络方法GridMix,用于解决偏微分方程建模中的空间调控问题。GridMix通过网格表征实现了局部细节和全局结构的有效结合,显著提升了PDE建模的性能,在动态系统建模和几何感知预测任务中尤其表现优异。
破解国产芯片FP8及DeepSeek部署难题,清华团队开源“赤兔Chitu”大模型引擎
专注AIGC领域的专业社区,聚焦微软&OpenAI、百度文心一言等大语言模型的发展与应用。清华大学高性能计算研究所团队开源了名为‘赤兔Chitu’的大模型推理引擎,首次实现在非英伟达H系列GPU及国产芯片上原生运行FP8精度模型,有效突破部署限制。
AI生成交响乐,这一天终究还是来了
NotaGen 是首个针对古典音乐交响乐的 AI 音乐生成模型,来自中央音乐学院、清华和北航的开发人员宣布其开源。模型涵盖基础版及增强版NotaGen-X,并在专业数据集上进行了微调,实现高度可控性和专业性,提升了古典音乐生成质量。
CVPR 2025 VAST和北航开源MIDI,从单张图像端到端生成三维组合场景
本文介绍了一篇关于 MIDI 模型的研究论文,MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法,并有望应用于建筑设计、虚拟现实等多个领域。
前 OpenAI 研究员、清华大学吴翼博士亮相 2025 ML-Summit,剖析大型推理模型强化学习系统
近日,ACM 将 2024 年图灵奖授予强化学习之父 Richard S. Sutton 和 Andrew G. Barto。吴翼博士将出席 4 月在上海召开的全球机器学习技术大会,并介绍针对推理模型和强化学习开发的训练系统 AReaL。