SpatialVLA:机器人界的”三维导航仪”!上海AI Lab黑科技实现跨平台秒级控制

SpatialVLA模型通过Ego3D位置编码和自适应动作网格等技术提升了机器人在复杂环境中的空间理解能力和操作泛化性能,实现零样本泛化控制、高效适应新场景等功能。

NeurIPS 2024 基于视觉-语言预训练模型的提示词微调理论分析框架

本文介绍了上海科技大学 YesAI Lab 在 NeurIPS 2024 发表的工作《Federated Learning from Vision-Language Foundation Models: Theoretical Analysis and Method》。研究针对视觉-语言模型在联邦学习中的提示词微调提出理论分析框架,引入特征动力学理论并设计了PromptFolio机制,在平衡全局与个性化提示词的同时提升性能。