全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理 下午4时 2025/03/05 作者 新智元 亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」! 就在刚刚,我们在未