港科大、地平线提出DrivingWorld:基于视频GPT构建自动驾驶世界模型

港科大与地平线联合提出DrivingWorld模型,采用基于自回归架构的方法实现精准的自动驾驶世界模型。通过空间-时间先解耦后融合机制和next-state预测策略,实现超长时序视频生成及可控性提升。

清华新VLA框架加速破解具身智能止步实验室“魔咒”,LLM开销节省4-6倍 NeurIPS’24

清华大学研究团队设计的DeeR-VLA框架解决了多模态模型在机器人应用中的计算和内存消耗问题。该框架通过动态推理机制根据任务复杂度智能调节模型规模,实现了大语言模型计算成本减少5.2-6.5倍、GPU内存减少2-6倍的同时保持性能不变。