参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA

哈尔滨工业大学(深圳)和宾夕法尼亚大学联合团队提出PointKAN,这是一种基于Kolmogorov-Arnold Networks(KANs)的3D感知解决方案,在处理点云数据的下游任务上展现出巨大潜力。

Nvidia开源AI文本转音效模型,只要3.7秒就能生成30秒的音效,影视配音将越来越简单。

文章介绍了TangoFlux,一款由新加坡科技设计大学和NVIDIA联合开发的高效文本到音频生成模型。它能在单个A40 GPU上仅用3.7秒生成长达30秒的高质量音频,展示了优越性能,并详细阐述了其技术特点,包括高效的生成能力、流匹配与直流量化流技术以及Clap排名偏好优化(CRPO)等。