说句话就能飞!北航发布语言交互的无人机控制模型

UAV-Flow Colosseo团队 投稿
量子位 | 公众号 QbitAI

论文链接:https://arxiv.org/abs/2505.15725
项目主页:https://prince687028.github.io/UAV-Flow/

一句话就能让无人机起飞?

就像人类飞行员一样,听懂指令后立刻照做。




北航刘偲教授团队创新性地提出了语言引导的细粒度无人机轨迹控制研究框架,将无人机根据简短指令执行短距反应式飞行的任务定义为Flying-on-a-Word(Flow)范式。
UAV-Flow基准

该团队采用模仿学习方法,使无人机通过习得人类飞行员在真实环境中的操作策略来响应原子化语言指令。

随后,视觉语言动作(VLA)模型被成功部署至真实无人机平台,并在北京航空航天大学国际创新研究院的开放场景中验证了其基于自然语言对话实现飞行控制的可行性。

从导航到对话

近年来,无人机(UAV)凭借其灵活的空中机动能力,已成为视觉感知与任务执行领域的重要平台。

随着自动化技术的普及,无人机操作的门槛大幅降低,但如何让它像“智能助手”一样理解人类语言,例如只需说一句“环绕着我飞”,无人机就能理解并执行相应的动作,仍是亟待突破的前沿课题。

当前研究主要将地面机器人的视觉语言导航(VLN)任务迁移至无人机平台,重点解决基于语言指令的目标搜索与远程导航等高层次推理问题。

然而,语言引导的无人机低层控制(如执行短距离原子动作或响应简单指令)尚不完备,成为实现智能无人机系统的关键但尚未充分探索的方向。

任务定义

Flying-on-a-Word (Flow) 任务致力于实现自然语言指令与无人机精细飞行控制的高效对齐。

在该任务框架中,无人机代理整合三种输入模态:自然语言指令六自由度状态信息第一视角视觉观测,生成符合指令语义的动作序列,以模仿人类飞行员的操作。

为支持Flow任务的研究,北航刘偲教授团队构建了一个大规模的真实世界语言引导的无人机模仿学习数据集。该数据采集工作在三所高校校园内展开,覆盖总面积达5.02平方公里

轨迹类型示意图

仿真评测基准

为建立统一的评估基准,研究团队构建了UAV-Flow-Sim仿真数据集,并在仿真闭环测试环境下对多个模型进行了系统评估,采用成功率(SR)归一化动态时间规整(NDTW)等指标对飞行轨迹质量进行量化分析,具体测试结果如下。

模型SR对比
模型NDTW对比

真机部署

针对无人机机载计算资源受限的挑战,研究团队提出了一套地面站-无人机协作策略,并为缓解通信和推理延迟带来的控制滞后问题,提出具有前瞻机制的全局轨迹对齐算法,确保运动控制的连续性。

团队基于UAV-Flow真实世界数据集训练了Pi-0-UAV模型,在北航国新院的开放场景中成功实现了视觉语言动作(VLA)系统的真机部署,首次通过自然语言对话实时控制无人机完成指令任务。

更多真机飞行精彩视频,详见项目主页。

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —


🌟 点亮星标 🌟

科技前沿进展每日见

(文:量子位)

发表评论

×

下载每时AI手机APP

 

和大家一起交流AI最新资讯!

立即前往