8块A100,32B碾压DeepSeek V3、o1-preview!普林斯顿北大首提分层RL推理 2025年2月12日23时 作者 新智元 座。普林斯顿联手北大提出全新ReasonFlux框架,直接AIME上碾压o1-preiview。 仅