只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20% 下午4时 2025/05/02 作者 新智元 南加州大学团队利用LoRA+强化学习在AIME 24数学基准测试上实现超过20%的性能提升,成本仅为9美元。研究发现LoRA模型中减少计算反而能带来更好的性能。