让机器人在人群中穿梭自如,港科广&港科大突破社交导航盲区 ICRA 2025

近期,香港科技大学研究团队提出了一种新算法Falcon,通过将轨迹预测算法融入社交导航任务中,实现了长期动态避障并提升导航性能。该算法已在ICRA 2025接收,并构建了两个新的数据集Social-HM3D和Social-MP3D作为社交导航的新基准。

单张照片实现三维重建,单视角室外复杂场景首次攻克| 西湖大学&港科大&Everlyn AI

西湖大学、香港科技大学等团队提出Niagara框架,首次有效解决单视角复杂室外场景三维重建问题。该方法结合深度与法线信息,采用几何仿射场和3D自注意力机制,显著提升细节捕捉精度及几何一致性。在RealEstate10K数据集上验证效果,优于当前最先进的Flash3D方法。

无需百卡集群!港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

LightGen 是由香港科技大学 Harry Yang 教授团队联合 Everlyn AI 和 UCF 提出的一种新型高效图像生成模型,旨在解决主流生成模型依赖大量数据和计算资源的问题。论文提出通过知识蒸馏和直接偏好优化策略,在有限的数据和计算资源下实现了高质量图像的生成,并在多个实验中展示了与 SOTA 模型相当甚至超过的性能表现。

自动调整推理链长度,SCoT来了!为激发推理能力研究还提出了一个新架构

SCoT团队提出了一种新的推理范式SCoT,它能动态调整推理链长度来适应不同复杂度的问题。AtomThink框架则是一个全过程训练和评估的系统,旨在提升多模态大模型在复杂推理任务上的表现。

语音合成也遵循Scaling Law,太乙真人“原声放送”讲解论文 港科大等开源

Llasa团队分享了他们基于Transformer的语音合成模型的研究成果,该模型展示了通过扩展计算资源来提高语音合成效果的能力。研究揭示了训练时间和推理时间扩展对性能的影响,并开源了代码和权重以供其他研究人员参考。

网传DeepSeek R1更容易被越狱?这有个入选顶会的防御框架SelfDefend

香港科技大学等团队提出SelfDefend框架,让大语言模型首次具备自我保护能力,有效抵御越狱攻击。该框架通过创建并行的影子LLM来检测潜在有害查询,并在不影响正常响应的情况下提升安全性。

具身智能核心零部件供应商「VLAI未来动力」获数百万天使轮融资

广州未来动力有限公司近日完成数百万元天使轮融资,资金用于研发一体化关节电机、拓展矩阵及升级硬件,并加快量产订单交付。公司专注于轻量化高精度控制的智能零部件,创始人团队具备丰富经验。”VLAI未来动力”采用三合一模式减少故障点并提高传动效率,发布新一代具身智能一体化关节电机产品。