UC伯克利归档 - 第2页共2页

新注意力让大模型上下文内存占用砍半！精度不减还能加速2倍

2025年3月17日16时作者量子位

前苹果ASIC架构师Nils Graef与UC伯克利本科生Andrew Wasielewski提出Slim Attention，通过只存储K而不直接存储V实现更少的内存占用和更高精度。

2025年3月8日23时作者 PaperWeekly

近期伯克利等机构提出COAT方法，通过动态范围扩展和混合粒度FP8精度流技术，在保持模型精度的同时显著减少FP8量化误差及激活值占用，实现了端到端内存占用减少1.54倍、训练速度提高1.43倍。

2025年2月13日23时作者新智元

OpenThinker-32B 是由斯坦福、UC伯克利等机构联合发布的 SOTA 级推理模型，仅需 1/8 数据就与 DeepSeek-R1 达成同等性能。项目使用精心选择的验证数据集，并通过数据规模化、推理过程验证和模型规模扩展的方法实现。

2025年2月12日8时作者 NLP工程化

UC伯克利团队通过RL微调改进Deepseek-R1-Distilled-Qwen-1.5B，使其在AIME基准上Pass@1准确率高达43.1%，参数量仅为1.5B且超越OpenAI o1-preview。

2025年2月11日16时作者新智元

在刚刚，UC伯克利团队只用简单的RL微调，就训出了DeepScaleR-1.5B-Preview，1