仅需一万块钱!清华团队靠强化学习让 7B模型数学打败GPT-4o

清华大学等团队提出PRIME方法,仅用8张A100,在不到10天时间训练出一个数学能力超过GPT-4o的7B模型Eurus-2-7B-PRIME,准确率提高显著。该方法采用隐式过程奖励解决大模型强化学习中的奖励稀疏问题,有望推动复杂推理能力提升。

专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形

上海AI Lab邵婧课题组提出一种新的大模型指纹识别方法REEF(Representation Encoding Fingerprints),能够在不改变模型性能的前提下精准检测未经授权的后续开发行为,给大模型开发团队提供了一种应对大模型侵权问题的新手段。