强化学习也涌现?自监督RL扩展到1000层网络,机器人任务提升50倍
普林斯顿大学和华沙理工的研究表明,将对比 RL 扩展到1000层可以显著提高自监督强化学习的性能,在各种机器人任务中可实现50倍以上的提升。
普林斯顿大学和华沙理工的研究表明,将对比 RL 扩展到1000层可以显著提高自监督强化学习的性能,在各种机器人任务中可实现50倍以上的提升。
腾讯发布首个混合Transformer-Mamba MoE架构的超大模型Hunyuan-TurboS,其在数学、推理等关键benchmark上超越或持平GPT-4o-0806、DeepSeek-V3。模型成本降低7倍。