上海科技大学
SpatialVLA:机器人界的”三维导航仪”!上海AI Lab黑科技实现跨平台秒级控制
SpatialVLA模型通过Ego3D位置编码和自适应动作网格等技术提升了机器人在复杂环境中的空间理解能力和操作泛化性能,实现零样本泛化控制、高效适应新场景等功能。
NeurIPS 2024 基于视觉-语言预训练模型的提示词微调理论分析框架
本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。研究针对视觉-语言模型在联邦学习中的提示词微调提出理论分析框架,引入特征动力学理论并设计了PromptFolio机制,在平衡全局与个性化提示词的同时提升性能。
NeurIPS 2024|打破扩散模型与在线强化学习结合的瓶颈!引入Q变分训练的在线扩散强化学习算法
该工作提出了一种基于Q变分损失的扩散策略优化方法(QVPO),解决了扩散模型与在线强化学习结合的问题,提高了样本效率和最终表现。