香港大学归档 - 每时AI

英伟达、港大等发布创新KV缓存，实现扩散模型无训练加速

2025年7月9日8时作者 AIGC开放社区

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态。扩散语言模型通过存储和重用先前计算的注意力状态来提升生成速度，但并行解码时往往导致生成质量下降。Fast-dLLM提出基于置信度的平行解码策略来改善这一问题。

孙秋实@香港大学：迈向通用计算机智能体：模型、数据与技术演进

2025年7月3日14时作者机器学习算法与自然语言处理

MLNLP社区举办学术Talk活动，邀请香港大学孙秋实分享计算机智能体进展，涵盖基础模型设计、高质量数据合成与利用等技术领域。

超CLIP准确率11%！伯克利港大阐明「LLM文本-视觉」对齐深层机制

2025年7月3日11时作者新智元

新智元报道
UC伯克利和香港大学团队的新工作LIFT首次系统性地剖析了冻结大语言模型作为文本编码器在多模态对齐中的优势来源、数据适配性和关键设计选择，显著提升了组合语义理解能力和长文本处理效果。

MindOmni：腾讯联合清华等机构推出的多模态大语言模型，推理生成能力卓越

2025年6月29日14时作者小兵的AI视界

腾讯联合清华大学深圳国际研究生院等机构推出的多模态大语言模型MindOmni，在视觉理解、文本到图像生成、推理生成等方面表现卓越。它采用三阶段训练策略和强化学习算法优化了模型的推理生成能力，支持内容创作、教育、娱乐等多个领域应用。

机器人视觉语言导航进入R1时代！港大联合上海AI Lab提出全新具身智能框架

2025年6月25日11时作者量子位

香港大学与上海AI Lab联合提出的VLN-R1团队提出了一种新的视觉语言导航技术，无需依赖离散地图，在复杂环境中实现灵活感知、决策和行动。仅用20亿参数的Qwen模型在VLN-CE基准测试中超越了7B模型，并实现了长距离导航中的跨域迁移。

国产SOTA新模型精准get“画(3+6)条命的动物” 开源

2025年6月20日16时作者量子位

清华大学等团队提出的新模型MindOmni显著增强了AI的推理生成能力，能够理解复杂指令并生成逻辑性和语义一致性的图像或文本输出。

10×加速！DCM显著提升视频扩散模型推理效率！HunyuanVideo13B推理时间从1500秒缩短至120秒！

2025年6月19日8时作者机器之心

本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题，通过解耦语义合成与细节精修，显著减少采样步数的同时保持了较高的视觉质量。

英伟达港大联手革新视觉注意力机制！GSPN高分辨率生成加速超84倍

2025年6月10日16时作者量子位

香港大学与英伟达联合推出广义空间传播网络(GSPN)，通过二维线性传播和稳定性-上下文条件显著降低计算复杂度，提升视觉任务效率，并在多个视觉领域刷新性能纪录。

谷歌之后，英伟达入局扩散大语言模型，Fast-dLLM推理速度狂飙27.6倍

2025年5月30日16时作者机器之心

Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术，显著提升扩散模型推理速度至原速的 27.6 倍，同时保持较高生成精度。