MMLU
开源顶流集结!QwQ-32B 解锁多元玩法,OpenManus 低成本构建 AI 智能体!vLLM v1 赋能高效模型推理
,再次刷新行业对开源大模型的认知。该模型在代码生成、多轮对话等任务中展现出了卓越的表现,推理能力更是
标点符号成大模型训练神器!KV缓存狂减一半,可处理400万Tokens长序列,来自华为港大等 开源
来自华为、港大、KAUST和马普所的研究者提出了一种新的稀疏注意力机制——SepLLM,它通过根据原生语义动态划分token数量来显著减少KV缓存使用量,并在免训练、预训练和后训练场景下实现了50%以上的KV缓存减少。
英伟达暴力优化DeepSeek R1,推理速度暴涨25倍!
英伟达推出DeepSeek R1在Blackwell架构上的优化,其推理性能提升了25倍,成本降低了20倍。通过使用FP4精度,DeepSeek-R1实现了更低的成本和更高的效率,可能带动API价格大幅下降。
谷歌DeepMind推出“可微缓存增强”新方法了
谷歌DeepMind团队提出了一种名为‘可微缓存增强’的技术,该技术通过引入外部协处理器来增强大语言模型(LLMs)的键值(kv)缓存,显著提升了推理性能,并在多个基准测试中提高了准确率和性能。