Agent or SFT or RL ? 9个多模态R1推理开源项目核心思路解析 下午2时 2025/03/02 作者 老刘说NLP 个整理的技术工作。 DeepSeek-R1在处理数学、编码、谜题和科学问题以及回应一般问题时表现出出