快速理解一下!RL 究竟是如何与 LLM 做结合的? 下午7时 2025/05/17 作者 Datawhale RLHF 想必今天大家都不陌生,但在 ChatGPT 问世之前,将 RL 和 LM 结合起来的任务
DeepSeek数学大翻车?普林斯顿谷歌锤爆LLM:做题不会推理,全靠死记硬背 下午11时 2025/02/13 作者 新智元 普林斯顿、谷歌等研究者详细剖解了o1-mini等模型做数学题的过程,发现它们靠的是记!最实锤的证据之