论文标题:
TOPIC:A Parallel Association Paradigm for Multi-Object Tracking under Complex Motions and Diverse Scenes
https://ieeexplore.ieee.org/document/10851814
https://github.com/holmescao/TOPICTrack
https://holmescao.github.io/datasets/BEE24
效果展示:

视频数据和算法的进步推动了多目标跟踪(MOT)领域的发展。现有的 MOT 数据集主要关注遮挡和外观相似性问题,而复杂的运动模式虽广泛存在,却常被忽视。
为了解决这一问题,我们提出了一个新数据集——BEE24,旨在突出展示复杂的运动场景。BEE24 特别具有挑战性,因为它要求跟踪多个外观相似且运动复杂的小蜜蜂,并且这些物体的运动持续时间较长,这十分贴近实际需求(如蜜蜂养殖和无人机群体监控)。
身份关联算法一直是 MOT 研究的核心。现有的跟踪算法大致可以分为两类:单特征范式(基于运动或外观特征)和串行范式(通过将一种特征作为主特征,另一种作为辅特征)。
然而,这些传统范式无法充分利用不同特征之间的互补性。本文提出了一种全新的并行范式,并介绍了双轮并行匹配方法 TOPIC。TOPIC 能够结合运动和外观特征,并根据运动复杂度自适应选择最合适的特征作为匹配度量。
此外,我们还设计了一个基于注意力机制的外观重建模块 AARM,该模块能够重构外观特征嵌入,从而增强外观特征的表示能力。
在现有的 MOT 数据集中,研究者通常采用两种主要的方式来应对不同场景的挑战:一是通过扩展场景多样性或物体类别,如 GMOT-40 数据集;二是关注特定挑战,如遮挡(如 MOT17、MOT20 数据集)或高相似度的外观(如 DanceTrack 数据集)。
然而,这些数据集中的运动模式相对简单,多数物体的运动模式类似,且缺乏足够的变化性,这在实际应用中可能无法有效应对复杂的运动场景。例如,蜂群在蜂箱周围运动时,不仅会在飞行、爬行等多种模式之间频繁切换,而且其运动速度呈现出明显的非线性变化,如图 2。
为了应对这种复杂运动的跟踪问题,我们提出了一个全新的数据集——BEE24,专注于展示复杂的运动模式。BEE24 在两个关键方面丰富了数据特性:一是不同物体在同一帧内的运动差异,二是物体在帧间运动的显著变化。
▲ 图2:对比不同MOT数据集的特性
▲ 图3:对比MOT算法的数据关联范式
考虑到上述不同特征在不同场景中的优势,直观的想法是将更多特征结合使用,从而提升性能。为此,我们提出了一个新的并行关联范式,并设计了 TOPIC(Two rOund Parallel matchIng meChanism)方法来实现这一范式。
TOPIC 能够同时使用运动和外观特征作为匹配度量,并根据运动复杂度自适应选择最优特征,从而减少假阴性(FN)的出现。与传统的串行匹配范式相比,这种并行范式能够更有效地利用不同特征之间的互补性。
BEE24数据集简介

▲ 表1:对比MOT数据集统计特性
3. 大规模标注:数据集包含总计 446,908 个标注,最大视频时长达到 200 秒,单视频的标注数量和最大时长均超过了大部分现有数据集,尤其是在高密度场景下的跟踪任务中,BEE24 为算法提供了更多挑战。
▲ 图4:对比不同MOT数据集的运动复杂性
4.1 并行匹配范式:TOPIC方法
TOPIC 的核心思想是同时利用运动特征和外观特征进行匹配,并通过两轮匹配机制解决可能的匹配冲突。在第一轮匹配中,通过匈牙利算法分别计算基于外观和基于运动的匹配结果。
4.2 基于注意力的外观重建模块:AARM
AARM 采用基于余弦距离的注意力机制,通过计算历史轨迹和当前检测的相似性来增强外观特征的表示。通过这种方式,AARM 能够改善同一物体在不同帧间的相似度,同时增强不同物体之间的区分度。
▲ 图5:AARM的原理图
▲ 表2:TOPIC和AARM的有效性验证实验
▲ 图6:TOPIC的匹配过程可视化
5.2 AARM的有效性
5.3 速度与精度的平衡
5.4 基准测试
通过在 5 个数据集上的对比,TOPICTrack 在多个关键指标上超越了主流算法,达到了新 SOTA(见表3-7)。通过分析不同数据集的目标特性,我们发现 TOPICTrack 在处理复杂运动、遮挡以及外观相似度高的目标时,表现尤为突出。

在数据集特性扩展方面,本文提出了一种新的 MOT 数据集 BEE24,该数据集挑战模型跟踪多个相似外观的小物体,且物体运动复杂、持续时间长。BEE24 有助于推动 MOT 技术在现实场景中的应用与发展。
在算法优化方面,我们提出了一种新的并行关联范式——TOPIC,能够根据物体的运动水平自适应选择外观或运动特征进行关联。同时,我们提出 AARM,增强了跟踪器对物体外观的表示能力,并且能够即插即用。大量实验验证了我们提出的跟踪器在五个数据集上的有效性和优越性。
(文:PaperWeekly)