清华大学
为今年最火的机器人来场全球挑战赛:150万高额奖金,还有顶级硬件支持
ATEC2025 科技精英赛由清华大学等顶尖学府联合主办,聚焦人工智能与机器人技术融合创新。赛事设置双赛道,奖金池高达21万美元,提供商业级硬件设备,并邀请专家学者评委参与验证和交流。
支持40种东方语言和22种汉语方言!清华大学开源自动语音识别模型Dolphin
Dolphin 是由 Dataocean AI 和清华大学合作开发的多语言语音识别模型,支持40种东方语言和22种汉语方言。它在210,000小时的数据上训练完成,包含专用数据集和开源数据集。该模型能执行语音识别、VAD、分割和LID任务。
清华大学推出Dolphin语音识别模型!专攻40种东方语言,方言识别准确率提升54%!
清华大学和海天瑞声联合开源的Dolphin语音识别模型专为东方语言设计,支持40种东方语言和22种汉语方言,其small版本仅为Whisper large v3大小的一半,却提高了54.1%的平均字错率。
为大模型添加多模态能力——Mini DALL·E 3
北京理工大学等4大名校联合发布Mini DALL·E 3,无需额外训练即可为多数主流大模型添加文成图多模态输出能力。该系统由语言模型、路由器、适配器和图像生成模型四大模块组成,实现了用文本生成图像。
在线教程丨YOLO系列重要创新!清华团队发布YOLOE,直击开放场景物体实时检测与分割
清华大学团队提出YOLOE模型,实现了开放物体探测与分割。该模型基于YOLO架构改进,具备多模态能力,能听懂语言指令、看懂图像,并自主发现新事物。HyperAI超神经平台上线了详细的部署教程。
清华朱军团队 从点云到高保真三维网格:DeepMesh突破自回归生成瓶颈
清华大学朱军团队提出 DeepMesh 方法,通过引入自回归生成框架和创新网格标记化方法,显著提升三维网格的生成能力。该方法支持生成高达3万个面片的高质量三维网格,并在多种应用场景中表现出色。
微软、清华发布Agent创新方法,解决记忆、检索大难题
微软与清华大学的研究人员联合发布了SECOM,一种专用于个性对话Agent的记忆构建和检索方法。它在LOCOMO和Long-MT-Bench+数据集上的表现优于现有技术,展示了其在长对话处理中的潜力。
7倍推理加速!清华团队发布稀疏Attention,无需训练加速一切模型
清华大学陈键飞团队提出的SpargeAttn无需训练且通用,实现了任意模型在4-32K上下文长度上的4-7倍推理加速,并保持了端到端精度。该方法通过选择性地压缩Q, K矩阵并预测P矩阵来节省计算,同时使用稀疏在线softmax算法进一步优化。