DeepSeek新论文提新训练方法SPCT,R2要来了?

近日,DeepSeek和清华大学提出了一种新的训练方法SPCT(Self-Principled Critique Tuning),用于提升点式生成式奖励建模(GRM)的质量和可扩展性。该方法通过让模型学会先定原则、再写点评来改进通用RM的准确性,并实现了推理阶段的可扩展性提升。

马斯克发布Grok3,数学科学编程能力胜DeepSeek-V3,Grok2 将开源

马斯克在X平台直播中发布第三代AI大模型Grok3,其数学、科学和编程基准测试成绩显著优于前代。Grok 3引入了’思维链’推理机制,并且支持自然语言驱动开发,马斯克计划首先向X上的Premium+订阅者推出该产品。