推理效率归档

ICCV 2025 清华&腾讯混元X发现「视觉头」机制：仅5%注意力头负责多模态视觉理解

2025年7月14日23时作者机器之心

同第一作者为清华大学自动化系本科生王嘉辉和博士生刘祖炎，本文的通讯作者为清华大学自动化系鲁继文教授。

2025年7月10日23时作者极市干货

框架 DC-AR，通过创新的混合 tokenizer 和掩码自回归机制，在大幅降低计算成本的同时实现

2025年7月10日8时作者 AIGC开放社区

专注AIGC领域的专业社区分享了微软开源的Phi-4家族新版本Phi-4-mini-flash-reasoning，该版本参数小且推理效率高，特别适用于边缘设备。文章还介绍了创新架构SambaY及其实现原理，并展示了其在长文本生成、高级数学推理和长上下文检索方面的性能提升。

2025年6月28日16时作者机器之心

ASIC 等多种硬件平台上实现大模型的高效部署与加速。第二作者为香港中文大学的韩晨夏，研究方向聚焦

2025年6月19日14时作者 GiantPandaCV

m官方blog提供的一个简明流程示意图：
配合上篇文章的讲解，我们知道：
在vllm v0（版本是0

2025年5月28日16时作者量子位

代，
如何让模型在“难”的问题上展开推理，而不是无差别地“想个不停”
，成为当前智能推理研究的重要课

2025年5月27日16时作者 PaperWeekly

项研究成果：Liger（狮虎兽），即
Li
nearizing LLMs to
g
at
e
d
r

MLNLP社区介绍了一个名为ParScale的新方法来扩展大语言模型的计算量，该方法可以在保持参数不变的情况下显著提升推理效率，并且适用于各种场景。通过将输入变换形式和输出聚合规则变为可学习的并增大并行计算数量，该技术展示了在推理和预训练阶段的有效性。

2025年5月11日16时作者量子位

华为与中科院提出DEER模型，通过动态提前退出推理机制，在保持精度的同时显著缩短大模型的思维链长度。

2025年5月7日16时作者 PaperWeekly

论文提出SCoT（推测性思维链），通过小型模型快速生成多个解题草稿，大型模型审核并选择最优解或重新编写。这种协作式推理方法能显著提升速度和准确率，同时降低成本、增加灵活性，并且代码开源便于应用。