港科大归档 - 每时AI

首个多模态专用慢思考框架！超GPT-o1近7个百分点，强化学习教会VLM「三思而后行」

下午11时 2025/06/06 作者量子位

研究团队提出VL-Rethinker模型，通过优势样本回放和强制反思技术解决多模态推理中的优势消失和反思惰性问题。该模型在多个数学和科学任务上超过GPT-o1，并显著提升Qwen2.5-VL-72B在MathVista和MathVerse上的性能。

下午4时 2025/05/28 作者量子位

Laser团队提出的新方法提升了大模型的推理效率与准确性，通过统一视角看待不同奖励设计、基于目标长度和阶跃函数的奖励机制以及动态且带有难度感知的目标调整，实现了在减少Tokens使用量的同时保持或提升准确率。

下午4时 2025/05/09 作者 PaperWeekly

港科广团队提出MultiGO方案，通过分层建模思路实现逼真人体3D模型重建，核心在于采用高斯溅射点作为三维基元，大幅提升单目图像纹理人体重建质量。

下午4时 2025/05/05 作者量子位

港科大团队提出的MultiGO方案通过三级几何学习框架解决了单目图像下三维人体重建的难题，显著提升了人体模型的质量和细节精度。

下午11时 2025/04/15 作者 PaperWeekly

文章摘要：顶会论文探讨了强化学习与多目标优化融合提升AI决策能力的技术。港科大和MIT团队通过不同方法在自动驾驶及机器人控制中实现安全性和能效的双重提高；阿里云技术则优化金融交易系统的风险收益平衡，这些成果重塑智能决策边界。

下午4时 2025/03/27 作者机器之心

港科大与音乐圈合作的开源项目YuE，能生成5分钟长的专业级歌曲，并同时合成人声和伴奏。其双轨版Next-Token Prediction策略能精准捕捉细腻人声，且具有模仿多歌手的能力。

上午8时 2025/03/19 作者量子位

港科广团队提出OpenGS-SLAM解决方案，仅凭RGB图像实现高精度定位与逼真场景重建。通过点图回归网络生成帧间一致的点图，并结合3D高斯地图进行优化，显著提高跟踪精度和鲁棒性。

下午11时 2025/03/14 作者机器之心

本文提出VLM²-Bench评测基准，旨在系统探究视觉语言模型在人类级基础视觉线索关联能力上的表现。通过全面考察通用线索、物体线索和人物线索三个大类的基础关联能力，共涵盖9个子任务及3060个测试案例。

下午11时 2025/01/29 作者智东西

国产AI模型DeepSeek-R1在Hugging Face开源社区迅速流行，下载量超70万次，引发美国海军和政府关注。其衍生模型数量每日增长30%，热度持续攀升。谷歌前CEO称这是全球AI发展的重要转折点，并推动Meta、Hugging Face等机构模仿DeepSeek的开发策略。