英伟达、港大等发布创新KV缓存,实现扩散模型无训练加速
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。扩散语言模型通过存储和重用先前计算的注意力状态来提升生成速度,但并行解码时往往导致生成质量下降。Fast-dLLM提出基于置信度的平行解码策略来改善这一问题。
专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态。扩散语言模型通过存储和重用先前计算的注意力状态来提升生成速度,但并行解码时往往导致生成质量下降。Fast-dLLM提出基于置信度的平行解码策略来改善这一问题。
MLNLP社区举办学术Talk活动,邀请香港大学孙秋实分享计算机智能体进展,涵盖基础模型设计、高质量数据合成与利用等技术领域。
新智元报道
UC伯克利和香港大学团队的新工作LIFT首次系统性地剖析了冻结大语言模型作为文本编码器在多模态对齐中的优势来源、数据适配性和关键设计选择,显著提升了组合语义理解能力和长文本处理效果。
腾讯联合清华大学深圳国际研究生院等机构推出的多模态大语言模型MindOmni,在视觉理解、文本到图像生成、推理生成等方面表现卓越。它采用三阶段训练策略和强化学习算法优化了模型的推理生成能力,支持内容创作、教育、娱乐等多个领域应用。
香港大学与上海AI Lab联合提出的VLN-R1团队提出了一种新的视觉语言导航技术,无需依赖离散地图,在复杂环境中实现灵活感知、决策和行动。仅用20亿参数的Qwen模型在VLN-CE基准测试中超越了7B模型,并实现了长距离导航中的跨域迁移。
本文提出了一种双专家一致性模型DCM来解决视频生成中的一致性蒸馏问题,通过解耦语义合成与细节精修,显著减少采样步数的同时保持了较高的视觉质量。
香港大学与英伟达联合推出广义空间传播网络(GSPN),通过二维线性传播和稳定性-上下文条件显著降低计算复杂度,提升视觉任务效率,并在多个视觉领域刷新性能纪录。
Fast-dLLM 提出分块 KV 缓存和置信度感知并行解码技术,显著提升扩散模型推理速度至原速的 27.6 倍,同时保持较高生成精度。