DeepSeek新论文提新训练方法SPCT,R2要来了?

近日,DeepSeek和清华大学提出了一种新的训练方法SPCT(Self-Principled Critique Tuning),用于提升点式生成式奖励建模(GRM)的质量和可扩展性。该方法通过让模型学会先定原则、再写点评来改进通用RM的准确性,并实现了推理阶段的可扩展性提升。

实测百度文心大模型X1.vs.阿里Qwen2.5,文心大模型4.5.vs.Gemini 2.0

百度发布文心大模型4.5和X1,价格分别为0.004/0.016元/千tokens和0.002/0.008元/千tokens。文心4.5在多模态任务上表现优异,而文心X1能自主运用工具并具备更强的理解、规划、反思能力。

这回眸凝视仿佛硅基生命觉醒!Figure 发布能听懂人话不用训练的机器人通用大脑Helix

芜湖!机器人开始走出实验室,走进家庭,能做家务了。Figure的最新研究成果——视觉-语言-动作(VLA)模型Helix,让两台搭载该模型的机器人共享同一智能大脑,通过自然语言指令进行分工合作。