香港科技大学归档

带图推理碾压同类开源模型！港中文微软等开源OpenThinkIMG框架，教AI学会使用视觉工具

下午4时 2025/05/17 作者量子位

港中文和微软联合团队推出OpenThinkIMG开源框架，旨在提升AI视觉工具使用和推理能力。该框架包含模块化视觉工具部署、高效的智能体训练框架及高质量数据生成技术，支持自主学习的V-ToolRL算法显著提升了AI在图表推理任务上的表现。

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

下午4时 2025/05/15 作者量子位

香港科技大学和vivo AI Lab提出PreSelect方法，通过预测强度计算公式量化评估数据对特定能力的贡献。该方法利用基于fastText的评分器减少10倍计算需求，具有客观性、泛化性和轻量级优势，相比现有SOTA方法提升显著。

让机器人在人群中穿梭自如，港科广&港科大突破社交导航盲区 ICRA 2025

下午4时 2025/04/01 作者量子位

近期，香港科技大学研究团队提出了一种新算法Falcon，通过将轨迹预测算法融入社交导航任务中，实现了长期动态避障并提升导航性能。该算法已在ICRA 2025接收，并构建了两个新的数据集Social-HM3D和Social-MP3D作为社交导航的新基准。

单张照片实现三维重建，单视角室外复杂场景首次攻克｜西湖大学&港科大&Everlyn AI

下午11时 2025/03/20 作者量子位

西湖大学、香港科技大学等团队提出Niagara框架，首次有效解决单视角复杂室外场景三维重建问题。该方法结合深度与法线信息，采用几何仿射场和3D自注意力机制，显著提升细节捕捉精度及几何一致性。在RealEstate10K数据集上验证效果，优于当前最先进的Flash3D方法。

无需百卡集群！港科等开源LightGen: 极低成本文生图方案媲美SOTA模型

上午8时 2025/03/19 作者机器之心

LightGen 是由香港科技大学 Harry Yang 教授团队联合 Everlyn AI 和 UCF 提出的一种新型高效图像生成模型，旨在解决主流生成模型依赖大量数据和计算资源的问题。论文提出通过知识蒸馏和直接偏好优化策略，在有限的数据和计算资源下实现了高质量图像的生成，并在多个实验中展示了与 SOTA 模型相当甚至超过的性能表现。

自动调整推理链长度，SCoT来了！为激发推理能力研究还提出了一个新架构

下午12时 2025/03/13 作者量子位

SCoT团队提出了一种新的推理范式SCoT，它能动态调整推理链长度来适应不同复杂度的问题。AtomThink框架则是一个全过程训练和评估的系统，旨在提升多模态大模型在复杂推理任务上的表现。

语音合成也遵循Scaling Law，太乙真人“原声放送”讲解论文港科大等开源

下午4时 2025/02/27 作者量子位

Llasa团队分享了他们基于Transformer的语音合成模型的研究成果，该模型展示了通过扩展计算资源来提高语音合成效果的能力。研究揭示了训练时间和推理时间扩展对性能的影响，并开源了代码和权重以供其他研究人员参考。

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31