全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

亿参数非SFT模型上,成功实现了多模态推理的DeepSeek-R1「啊哈时刻」!
就在刚刚,我们在未