8块A100,32B碾压DeepSeek V3、o1-preview!普林斯顿北大首提分层RL推理 下午11时 2025/02/12 作者 新智元 座。普林斯顿联手北大提出全新ReasonFlux框架,直接AIME上碾压o1-preiview。 仅