北京航空航天大学归档

说句话就能飞！北航发布语言交互的无人机控制模型

2025年5月26日16时作者量子位

北航团队提出Flying-on-a-Word（Flow）范式，通过模仿学习使无人机理解并执行基于自然语言指令的短距飞行任务。采用大规模真实数据集和协作策略，在北京航空航天大学开放场景成功部署VLA系统控制无人机。

2025年5月1日14时作者小兵的AI视界

北京航空航天大学推出的小尺寸视频推理模型TinyLLaVA-Video-R1通过强化学习显著提升了小规模模型的性能，并开源了权重、代码和训练数据。该模型参数量不超过4B，在多个基准测试中表现优异，具备强大的多模态理解能力和可解释性生成能力。

2025年4月29日16时作者量子位

IJCAI Workshop挑战赛聚焦真实安检场景下的违禁品旋转目标检测，由北航联合科大讯飞举办。比赛提供真实场景中的安检图像与违禁品的旋转框标注，并分为初赛和复赛两个阶段，采用加权mAP作为评测指标。奖金总额24000人民币，提供7000元至500元不等的奖项。

2025年4月25日23时作者机器之心

北京航空航天大学推出小尺寸视频推理模型TinyLLaVA-Video-R1，其在通用问答数据集上进行强化学习效果显著。该工作引入人工标注的冷启动数据、长度奖励与答案错误惩罚，并为优势计算引入微小噪声，验证了小尺寸模型在视频推理中的潜力。

2025年3月18日14时作者小兵的AI视界

Sitcom-Crafter 是一个基于剧情驱动的 3D 人类动作生成系统，由北京航空航天大学、香港中文大学（深圳）、悉尼科技大学和中山大学等高校联合开发。它能够根据用户提供的长剧情指导生成多样化且物理真实的动作，支持多种交互场景，并通过增强模块优化动作的流畅性、自然性和同步性。

2025年3月14日12时作者机器之心

本文介绍了一篇关于 MIDI 模型的研究论文，MIDI 能够从单张图像生成高几何质量的组合式 3D 场景。该模型在多个数据集上的表现超越现有方法，并有望应用于建筑设计、虚拟现实等多个领域。

2025年3月8日12时作者量子位

第五届对抗机器学习Workshop将在2025年6月的CVPR会议上举行，主题为’基础模型+X’。研讨会旨在探讨基础模型及其特定领域应用中的鲁棒性挑战，并设立最佳论文奖等奖项吸引投稿。

2025年2月10日16时作者机器之心

北京航空航天大学团队发布小尺寸简易视频理解框架TinyLLaVA-Video，其参数量不超过4B，在多个视频理解基准上优于7B以上模型。该项目开源模型权重、训练代码和数据集，并支持模块化设计和自定义训练策略，降低研究门槛。