Visible and Clear: Finding Tiny Objects in Difference Map
通街市密人有 2024-10-25 09:01:01 阅读 60
Visible and Clear: Finding Tiny Objects in Difference Map
论文链接:https://arxiv.org/abs/2405.11276
项目链接:https://github.com/Hiyuur/SR-TOD (ECCV2024)
Abstract
微小目标检测是目标检测领域的关键问题之一。大多数通用检测器的性能在微小目标检测任务中显著下降。主要的挑战在于如何提取微小物体的有效特征。现有的方法通常是基于生成的特征增强,这种方法受到虚假纹理和伪影的严重影响,难以使微小物体的特征清晰可见,便于检测。为了解决这一问题,我们提出了一种自重构微小目标检测(SR-TOD)框架。我们首次在检测模型中引入了自重构机制,并发现了自重构机制与微小目标之间的强相关性。具体地说,我们在检测器的颈部之间施加一个重建头,构建重建图像与输入的差分图,显示出对微小物体的高灵敏度。这启发我们在差分图的引导下增强微小物体的弱表征。因此,提高了探测器对微小物体的可见性。在此基础上,我们进一步开发了差分图引导特征增强(DGFE)模块,使微小特征表示更加清晰。此外,我们进一步提出了一个新的多实例anti-UAV数据集,该数据集被称为DroneSwarms数据集,它包含了大量迄今为止平均尺寸最小的微型无人机。在DroneSwarms数据集和其他数据集上进行的大量实验证明了该方法的有效性。
1 Introduction
物体检测的子领域是识别和分类具有小尺寸的物体,被称为小物体检测。根据MS COCO[31]中的设置,如果一个目标的面积等于或小于32 ×32像素,则该目标为目标。AI-TOD基准[49]对这一定义进行了细化,将2-8像素的目标划分为“非常小”,8-16像素的目标划分为“极小”,16-32像素的目标划分为“小”。我们统一地称这些物体为“微小”物体。微小物体通常出现在各种现实世界的应用中,例如自动驾驶,anti-UAV,航空成像,工业检测,和行人检测,通常受到相当大的成像距离或物体固有的微小尺寸的限制。尽管具有相关性,但微小目标检测(TOD)仍然是一项艰巨的工作,即使是最先进的探测器也难以弥合微小和正常尺寸目标检测之间的性能差距[11]。在这一领域寻求改进的方法具有重要的理论和实践意义。
相对于一般目标检测的常见难题,如目标遮挡,微小目标检测提出了一些独特的挑战。最重要的挑战来自微小物体的信息丢失问题[11]。主流的检测架构采用骨干网络,如ResNet等[16,21,50],用于特征提取。尽管如此,这些框架经常实施降采样操作,旨在消除噪声激活和降低特征地图的空间分辨率,这一过程不可避免地导致微小物体的信息丢失。此外,微小物体本身有限的尺寸和缺乏信息含量也阻碍了TOD,导致在整个特征提取阶段大量信息丢失。这种物体表征的退化严重阻碍了检测头定位和区分微小物体的能力。因此,微小的物体对探测器来说是无法察觉的。特别是,在这些条件下,“非常微小”物体的微弱信号几乎被消灭,使探测器难以定位和识别它们。如图1所示,特征热图显示了检测模型对微型无人机的激活信号,这些信号对于微小物体来说往往很弱。例如,左下角的微小物体几乎消失了,影响了检测性能。这表明许多微小的物体对探测器来说是不够可见的。因此,在微小目标检测任务中,通用检测器的性能显著下降[49,54]。
现有的许多方法[1 - 3,27,35,37]通常使用超分辨率架构的生成方法来缓解由于信息丢失而导致的微小目标的低质量表示问题。这些方法通常将生成对抗网络[20]纳入目标检测框架,构建高分辨率和低分辨率样本对。该方法使生成器能够学习恢复微小物体的扭曲结构,旨在增强低质量微小物体的特征。然而,这些方法通常需要大量的中型和大型样本,这对在微弱信号的微小物体上执行超分辨率提出了重大挑战。此外,这些方法容易产生虚假纹理和伪影,降低了检测性能[14]。值得注意的是,超分辨率架构带来了大量的计算开销,使端到端优化变得复杂[11]。
与复杂的超分辨率架构下效率低下的特征增强相比,骨干网中丢失信息的恢复是一种更直观、更合理的策略。本文首次在目标检测框架中引入了一种简单有效的图像自重建机制。检测模型提取的特征映射通过重构头进行恢复,重构头在像素级受均方误差约束。需要注意的是,图像重建是一项位于低层次视觉域的任务,对像素变化非常敏感[7]。由于我们从检测模型中重建输入图像,因此难以恢复的图像区域可能对应于骨干网络特征提取过程中结构和纹理信息严重丢失的区域,特别是微小物体。利用重建图像与原始图像之间的差异,我们可以精确地找出经历了重大信息丢失的区域,从而为检测微小物体提供潜在的先验知识。因此,我们从自重构图像中减去原始图像,构建差分图,如图1所示。我们首先发现自重构差分图与微小物体之间存在很强的相关性。在图1中几乎被消除的“非常微小”的物体也可以在差值图中清晰地显示出来。图像中大多数微小物体在差分图中都有明显的激活。此外,差分图还保留了微小物体的主要结构。我们认为,差分图显示了探测器对感兴趣区域的像素级识别,以及微小物体的潜在位置和结构。总的来说,差分图使得微弱信号的微小物体更容易被发现。
因此,在这一发现的基础上,我们进一步将差分图中的先验信息整合到目标检测模型中。我们开发了一个简单有效的差分图引导特征增强模块,该模块通过沿通道维度重新加权差分图来计算元素明智的注意力矩阵,从而对微小物体进行特征增强。因此,通过将重建损失转换为专门针对微小物体的约束,我们增强了模型检测此类物体的能力,使微小物体对检测器更清晰。
此外,我们收集了一个新的anti-UAV数据集,名为DroneSwarms,这是一个典型的在各种复杂背景和光照条件下的微小目标检测场景。我们的DroneSwarms是anti-UAV中平均尺寸最小的(约7.9像素)。在我们的数据集和另外两个数据集上的实验表明,我们的方法优于其他竞争方法。
本文的贡献可以概括为以下几点:
提出了一种自重构微小目标检测(SR-TOD)框架,首次揭示了差分图与微小目标之间的鲁棒关联,从而提供了微小目标位置和结构的先验信息。我们有效地将微小物体通常丢失的信息转化为可操作的预先指导。
设计了差分图引导特征增强(DGFE)模块,改进了微小物体的特征表示,使其更清晰。DGFE模块可以方便灵活地集成到一般探测器中,有效提高微小目标检测的性能。
提出了一种新的anti-UAV微小目标检测数据集,命名为DroneSwarms,该数据集具有目前最小的平均目标尺寸。在我们的数据集和另外两个具有大量微小目标的数据集上进行了广泛的实验,验证了我们对竞争方法的有效性。
2 Related Work
2.1 目标检测
目标检测算法有多种类型。两阶段检测器将提取的特征映射馈送到区域建议网络中,在第一阶段提取建议。然后,在第二阶段,他们根据这些建议执行分类和回归任务,提供较高的识别和定位精度。经典的两级检测器有Fast R-CNN[18]、Faster R-CNN[40]、Cascade R-CNN[6]等。单级检测器直接对输入图像进行目标定位和分类,提供更快的处理速度。一级检测器的代表性例子包括YOLO系列[4,38,39]和RetinaNet[30]。此外,FCOS[47]、FoveaBox[25]等无锚点算法基于中心点预测目标,而CornerNet[26]、Grid R-CNN[33]、RepPoints[53]等方法基于关键点进行预测。最近的检测器如DETR[8]、Deformable DETR[60]和Sparse R-CNN[45]探索了端到端目标检测的新范式。这些算法通常使用FPN[29]作为颈部模块,这使得我们的方法很容易集成到大多数通用检测器中。
2.2 微小目标检测
通用检测器在检测大中型物体方面表现良好,但在检测微小物体方面仍面临重大挑战。近年来,微小目标检测的研究主要集中在数据增强、尺度感知、上下文建模、特征模仿和标签分配[11]。
数据增加。Krisantal等[24]通过复制粘贴小目标来增加样本数量。DS-GAN[5]设计了一种新的数据增强pipeline,用于生成小目标的高质量合成数据。
尺度感知。Lin[29]等人利用特征层次金字塔和特征融合提出了目前最流行的多尺度网络特征金字塔网络。Singh等[44]设计了图像金字塔的尺度归一化(SNIP)来选择一些实例进行训练。PANet[32]通过双向路径丰富了特征层次,利用精确的定位信号增强了更深层次的特征。NAS-FPN[17]、Bi-FPN[46]和Recursive-FPN[36]是在FPN的基础上进一步发展的。Gong等[19]通过设置融合因子来调节FPN相邻层之间的耦合,优化特征融合,提高模型性能。Yang等[52]设计了一种级联稀疏查询机制,在保持快速推理速度的同时,有效利用高分辨率特征来增强小目标的检测性能。
上下文建模。Chen等人[9]利用包含建议补丁的上下文区域表示进行后续识别。SINet[22]引入了一个上下文感知的RoI池层来维护上下文信息。
特征模仿。许多方法[1,2,27]利用生成对抗网络在小目标上执行超分辨率。Noh等[35]通过扩张卷积缓解了高分辨率特征和低分辨率特征感受野之间的不匹配。Deng等[14]提出了一种特征纹理传递模块来扩展特征金字塔,使新的特征层能够包含更详细的小物体信息。
标签分配。ATSS[56]根据阳性和阴性样本的统计特征自适应调整。Xu等人[51]提出了一种简单而有效的策略,称为基于接受场的标签分配(RFLA),以缓解基于anchor和anchor-free的检测器中的尺度-样本不平衡问题。
许多小目标检测方法都没有关注信息丢失这一关键问题。特征模仿方法试图通过生成来缓解这一问题,但往往会制造虚假的纹理和伪影[11,14]。相反,我们引入了一种图像自重建机制来识别重要信息丢失的区域,并利用这种先验知识来提高小目标检测性能。
2.3 Anti-UAV数据集
无人机由于体积小、成本低等特点,在检查、监视、军事等领域得到了广泛的应用。然而,非法无人机飞行带来了许多潜在风险并威胁到公共安全,因此anti-UAV措施成为一项重要任务。由于无人机实际上体积很小,而且经常在中高海拔飞行,因此在相机拍摄的图像中,它们往往显得非常小。因此,anti-UAV技术非常适合微小目标检测的应用。据我们所知,目前该领域有三个公开可用的可见光anti-UAV数据集。
MAV-VID[41]。该数据集由64个视频序列组成,其中包含从多个视点捕获的单个无人机,目标主要位于图像的中心区域。无人机的规模相对较大,平均尺寸约为166像素。
Drone-vs-Bird[12]。该数据集由77个视频序列组成,用于区分无人机和鸟类目标。数据集中无人机的平均尺寸约为28像素。
DUT Anti-UAV[57]。数据集分为两个子集:检测和跟踪。该数据集中的大多数图像包含单个目标,几乎没有非常小的目标。
现有的anti-UAV数据集通常每个图像单独包含一个无人机实例,很少有微小物体,几乎没有非常微小的物体。这与anti-UAV措施的实际场景不匹配,限制了anti-UAV任务中微小目标检测的发展和应用。为此,我们引入了迄今为止最小平均目标尺寸的第一个多实例anti-UAV数据集,DroneSwarms。
3 Method
3.1 总体架构
本文针对骨干网特征提取过程中信息丢失严重的主要挑战,提出了一种基于图像自重建机制的微小目标检测框架,如图2所示。最初,图像被送入骨干网络,骨干网络从该输入中提取特征,并将特征映射传递给颈部模块(通常是FPN)[29],以创建从P2到P5的多尺度特征金字塔。根据当前主流探测器的架构,微小物体检测的任务被指定为P2。因此,我们的自我重建机制与探测器的接口只通过P2发生。我们将P2输入重构头,这将在第3.2节中详细介绍。重建头生成的图像在尺寸上与原始输入一致。通过将重建图像与原始图像相减,取绝对值,并在三个颜色通道上取平均值,得到差分图。我们将差分图和P2都输入到差分图引导特征增强(DGFE)模块中,这将在第3.3节中详细介绍。DGFE模块基于差分图的先验知识增强P2中的特定微小目标特征,得到P2’。这个增强的特征图P2’取代了原来的P2作为特征金字塔的底层,随后被输入到检测头中。请注意,一些单级检测器[30]完全依赖于低分辨率的特征图P3,因此我们的框架也可以使用P3进行图像重建。由于特征金字塔网络(Feature Pyramid Networks, FPN)[29]及其变体被广泛采用作为颈部模块,我们的框架很容易与大多数当代检测模型集成。
3.2 差分图
骨干网特征提取固有的降采样过程不可避免地会造成目标信息的丢失。由于微小物体的尺寸有限,这种损失尤其严重。在这种情况下,微小物体的微弱信号几乎被消除,使得检测头很难从这种低质量的表示中进行预测[11]。针对这一问题,我们在FPN框架中重新考虑了不同层次特征映射的属性。考虑到高级别、低分辨率特征具有丰富的语义内容,而低级别、高分辨率特征具有更多的局部细节和位置信息,我们倾向于使用低级别特征图进行图像重建。
U-Net[42]架构通常用于图像重建任务,与流行的目标检测模型FPN模块有相似之处。因此,我们设计了一个简单的重构头插入FPN的自顶向下路径,如图2所示。给定具有
C
C
C个通道、大小为
H
×
W
H×W
H×W的底层特征映射
X
X
X,上采样结果
U
p
(
X
)
∈
R
c
2
×
2
H
×
2
W
Up(X) \in \mathbb{R}^{\frac{c}{2}×2H×2W}
Up(X)∈R2c×2H×2W可计算为
U
p
(
X
)
=
δ
(
C
o
n
v
2
(
δ
(
C
o
n
v
1
(
T
r
a
n
C
o
n
v
(
X
)
)
)
)
)
)
,
(1)
Up(X)=\delta(Conv2(\delta(Conv1(TranConv(X)))))), \tag{1}
Up(X)=δ(Conv2(δ(Conv1(TranConv(X)))))),(1)
式中
δ
δ
δ为整流线性单位(ReLU)[34]。Conv1和Conv2表示核大小为
C
×
C
×
3
×
3
C\times C\times 3\times 3
C×C×3×3的卷积。TranConv为转置卷积[55]。TranConv的核大小为
C
2
×
C
×
4
×
4
,
\frac{C}{2}\times C\times4\times4,
2C×C×4×4,步长为2。给定原始图像
I
o
∈
R
3
×
H
×
W
I_{o}\in\mathbb{R}^{3\times H\times W}
Io∈R3×H×W和底层特征映射
P
2
∈
R
C
×
H
4
×
W
4
P2\in\mathbb{R}^{C\times\frac H4\times\frac W4}
P2∈RC×4H×4W$,则图2所示的重构头可以表示为
I
r
=
σ
(
C
o
n
v
(
U
p
(
U
p
(
P
2
)
)
)
)
(2)
I_r=\sigma(Conv(Up(Up(P2)))) \tag{2}
Ir=σ(Conv(Up(Up(P2))))(2)
其中
I
r
I_r
Ir为重构图像。
σ
\sigma
σ 为Sigmoid函数,Conv的核大小为
3
×
C
×
3
×
3
3\times C\times3\times3
3×C×3×3。在两次上采样操作之后获得的重建图像
I
r
I_r
Ir具有与原始图像
I
o
I_o
Io相同的形状。因此,差分图D可以计算为
D
=
M
e
a
n
c
h
a
n
n
e
l
(
A
b
s
(
I
r
−
I
o
)
)
,
(3)
D=Mean_{channel}(Abs(I_r-I_o)), \tag{3}
D=Meanchannel(Abs(Ir−Io)),(3)
式中,
M
e
a
n
c
h
a
n
n
e
l
Mean_{channel}
Meanchannel表示沿通道维度计算平均值,Abs表示计算每个元素的绝对值。
通过计算原始图像和重建图像之间的均方误差(MSE)损失,实现重建头参数的优化。
3.3 差分图引导特征增强
在通过自重建机制创建差分图之后,一个关键的挑战是有效利用差分图的先验信息来增强微小目标的检测能力。考虑到差分图代表了微小物体的潜在位置和结构信息,我们设计了一个简单的即插即用模块,称为差分图引导特征增强(DGFE)。DGFE模块从差分图中计算出一个逐元素的注意矩阵,记为
M
∈
R
C
×
H
×
W
M \in \mathbb{R}^{ C×H×W}
M∈RC×H×W,目的是对
P
2
∈
R
C
×
H
×
W
P2\in \mathbb{R}^{C×H×W}
P2∈RC×H×W内的微小物体进行有针对性的特征增强,如图2所示。
过滤(Filtration)。重建图像和原始图像之间的固有差异导致几乎整个差分图的激活程度不同。为了滤除大部分噪声信号,使差分图更加清晰,我们构造了一个二值差分图
D
b
∈
R
1
×
4
H
×
4
W
D_b\in\mathbb{R}^{1\times4H\times4W}
Db∈R1×4H×4W。为此,我们设置一个可学习的阈值
t
t
t。给定一个与原始图像大小相同的差分图
D
∈
R
1
×
4
H
×
4
W
D\in\mathbb{R}^1\times4H\times4W
D∈R1×4H×4W,并考虑梯度的反向传播,则图2中的
F
i
l
t
r
a
t
i
o
n
(
D
)
∈
R
1
×
H
×
W
Filtration(D)\in\mathbb{R}^{1\times H\times W}
Filtration(D)∈R1×H×W 可以表示为
F
i
l
t
r
a
t
i
o
n
(
D
)
=
R
e
s
i
z
e
(
D
b
)
+
1
=
R
e
s
i
z
e
(
(
S
i
g
n
(
D
−
t
)
+
1
)
×
0.5
)
+
1
(4)
Filtration(D)=Resize(D_b)+1=Resize((Sign(D-t)+1)\times0.5)+1 \tag{4}
Filtration(D)=Resize(Db)+1=Resize((Sign(D−t)+1)×0.5)+1(4)
其中Sign表示Sign函数,Resize表示将
D
b
D_b
Db调整为与P2相同的大小。具体来说,
R
e
s
i
z
e
(
D
b
)
+
1
Resize(D_b) + 1
Resize(Db)+1可以保留原来存在于特征图P2中的有价值的信息,确保它不受
D
b
D_b
Db中值为0的区域的影响。
重新调整(Reweighting)。由于差分图只包含空间信息,我们需要利用广播来沿着通道维度重新加权,这有助于保持特征的多样性。给定特征映射
P
2
∈
R
C
×
H
×
W
P2\in\mathbb{R}^{C\times H\times W}
P2∈RC×H×W,权重
R
e
w
e
i
g
h
t
i
n
g
(
P
2
)
∈
R
C
×
1
×
1
{Reweighting(P2)}\in\mathbb{R}^{C\times1\times1}
Reweighting(P2)∈RC×1×1可以计算为
R
e
w
e
i
g
h
t
i
n
g
(
P
2
)
=
σ
(
M
L
P
(
A
v
g
P
o
o
l
(
P
2
)
)
+
M
L
P
(
M
a
x
P
o
o
l
(
P
2
)
)
)
,
(5)
Reweighting(P2)=\sigma(MLP(AvgPool(P2))+MLP(MaxPool(P2))), \tag{5}
Reweighting(P2)=σ(MLP(AvgPool(P2))+MLP(MaxPool(P2))),(5)
式中,AvgPool表示沿空间维度的平均池化,MaxPool表示最大池化。MLP包括两个全连接层和一个ReLU函数。因此,DGFE模块可表示为
P
2
′
=
M
⊗
P
2
=
(
R
e
w
e
i
g
h
t
i
n
g
(
P
2
)
⊗
F
i
l
t
r
a
t
i
o
n
(
D
)
)
⊗
P
2
,
(6)
P2'=M\otimes P2=(Reweighting(P2)\otimes Filtration(D))\otimes P2, \tag{6}
P2′=M⊗P2=(Reweighting(P2)⊗Filtration(D))⊗P2,(6)
其中,
M
∈
R
C
×
H
×
W
M\in\mathbb{R}^{C\times H\times W}
M∈RC×H×W表示元素注意力矩阵,
P
2
′
∈
R
C
×
H
×
W
{P2}^{′} \in \mathbb{R}^{C\times H\times W}
P2′∈RC×H×W表示针对微小目标进行了专门增强的特征映射。
3.4 DroneSwarms数据集
通常情况下,无人机在远离监视设备的地方操作,位于相当远的距离和高度,导致无人机的目标非常小,缺乏清晰度。因此,anti-UAV场景是适合微小目标检测的重要应用场景。此外,目前的微小目标检测数据集通常包含许多大中型目标,平均目标尺寸均在12.8像素以上[11,51]。为了构建一个几乎完全由大量微小物体组成的数据集,我们提出了一个平均尺寸最小的anti-UAV目标检测数据集,命名为DroneSwarms。DroneSwarms由9,109幅图像和242,218个注释的无人机实例组成,其中2,532个用于测试,6,577个用于训练。平均而言,每张图像包含26.59个无人机实例。图片尺寸为1920 × 1080,手工标注,精度高。DroneSwarms包括各种户外环境,如城市环境,山区地形和天空等。与现有的anti-UAV数据集不同,DroneSwarms包含241249个32像素及以下的微小物体,约占99.60%,平均尺寸仅为7.9像素左右。无人机分散在整个图像中。因此,DroneSwarms可以用于综合评估微小物体检测方法。
4 Experiment
4.1 实验设置
数据集。实验在三个数据集上进行。主要实验是在我们的anti-AUV数据集DroneSwarms上进行的,该数据集的平均绝对物体尺寸最小,约为7.9像素。此外,我们还在VisDrone2019[15]和AI-TOD[49]两个数据集上进行了实验。VisDrone2019[15]涵盖了10个类别的物体,所有图像都是从无人机的角度拍摄的。AI-TOD[49]包括8个类别的物体,图像来自包含微小物体的各种数据集。所有选择的数据集都包含大量的微小物体,尤其是尺寸小于16像素的微小物体。
实现细节。所有核心代码都建立在MMdetection基础上[10]。由于DroneSwarms数据集主要由大量微小物体组成,为了保证模型的收敛性,我们将DroneSwarms数据集上所有实验的初始学习率设置为0.0025,并使用随机梯度下降(SGD)优化器训练20个epoch的模型,动量为0.9,权值衰减为0.0001,批大小为2,anchor scale为2。对于在VisDrone2019[15]和AI-TOD[49]上的实验,我们严格遵循RFLA[51]在这两个数据集上的所有实验设置,例如使用SGD优化器进行12个epoch训练。初始学习率设为0.005,在第8和第11个epoch时衰减。使用ImageNet[43]预训练模型ResNet-50作为主干。基线的所有其他参数设置与MMdetection中的默认值相同。我们使用2个NVIDIA RTX 3090 GPU在DroneSwarms上进行模型训练,使用1个NVIDIA RTX 3090 GPU在其他两个数据集上进行模型训练。除另有说明外,上述参数均用于所有实验。
评价指标。虽然MS COCO[31]的平均精度(AP)评估指标在目标检测算法中很普遍,但它仅针对通用检测器而开发。该度量标准将尺寸小于32像素的目标大致归类为小目标,仅使用AP对其进行评估。因此,为了更有效地展示我们的方法在检测不同尺寸的小物体方面的性能,评估指标遵循AI-TOD基准[49]。注意,APvt,APt,APs分别是非常小,非常小,小尺度的ap。第1节介绍了这些量表的定义。
4.2 在DroneSwarms上的结果
我们将我们的方法与droneswarm数据集上其他最先进的检测器进行了比较,如表1所示。RFLA w/ SR-TOD实现了39.0的AP,比最先进的竞争对手高出1.1 AP,从而使整体性能提高2.1 AP。值得注意的是,RFLA w/ SR-TOD在APvt和APt方面的性能都有了2.3分的大幅提高,强调了我们的方法在检测微小物体方面的显著效果。此外,在Cascade R-CNN框架内,SR-TOD的Cascade R-CNN比RFLA高出1.4 AP,比1.9 AP有显著提高。此外,我们的方法在应用于其他检测器时也表现出明显的性能提升。与多级检测器相比,由于缺乏多阶段回归[15,51,54,59],一级检测器的性能通常较低。尽管一级检测器RetinaNet[30]仅利用FPN分辨率较低的特征图P3,但我们的方法实现了1.4 AP的改进。特别值得注意的是,由于专注于微小物体检测的不同挑战,我们的框架可以与RFLA等其他方法协同工作。而且我们的框架并不与检测器等方法相冲突[36],这些方法也通过改进FPN来增强特征表示。与基线方法相比,我们的方法实现了一致的改进。
4.3 在VisDrone2019和AI-TOD上的结果
我们进一步验证了DGFE在VisDrone2019[15]和AITOD[49]上的有效性,这两个模型同时具有较大的尺度方差,并且包含许多不同类别的微小物体,如表2和表3所示。
VisDrone2019。RFLA w/ SR-TOD提高了0.6 AP,在VisDrone2019上达到27.8 AP[15],优势明显。此外,Cascade R-CNN w/ SR-TOD的性能提高了2.1 AP,是AP中性能最高的。这表明Cascade R-CNN w/ SR-TOD在尺寸超过16像素的小物体上表现出更好的性能。重要的是,Cascade R-CNN w/ SR-TOD和RFLA w/ SR-TOD在AP0.75中分别提高了1.6个点和0.9个点。SR-TOD的增强级联结构有效地利用了多阶段回归来提高微小物体的定位精度。
AI-TOD。w/ SR-TOD检测器在AI-TOD数据集上的AP值为24[49],比RFLA高出2.3 AP,明显超过所有竞争对手。所有检测器都有显著的性能改进。值得注意的是,Cascade R-CNN w/ SR-TOD在APvt上超过RFLA 1.3个点,在APt上超过0.6个点,强调了我们的方法在AI-TOD数据集中对微小物体检测的重大影响[49]。
在不同数据集上的一致性改进表明SR-TOD的普遍性。
4.4 消融研究与讨论
单个组件的有效性。如3.2节和3.3节所示,我们提出的自重建机制由两个关键组件组成:重建头和差分图引导特征增强模块。请注意,DGFE的验证依赖于重建头,因为它需要构建一个差分映射作为输入。当只使用重构头时,无需构造差分映射即可获得重构图像。我们逐步将重建头和DGFE应用到Cascade R-CNN中。结果列于表4。DGFE的应用导致AP比单独使用重建头增加1.8个点,APvt大幅增加2.1个点。这些结果最终证明了DGFE是利用差分图的有效且不可或缺的模块。应该强调的是,重建头的单独应用产生了0.1 AP的适度改善,APt和AP都增加了0.2个点。这种增强可以归因于在目标检测模型中集成图像重建约束不仅保持了检测性能,而且在一定程度上提高了骨干网的像素理解能力。这种方法可能会为目标检测领域提供新的灵感。
阈值过滤的有效性。如第3.3节所示,我们在DGFE中实现一个操作,该操作使用可学习阈值过滤差分图。为了检查阈值的影响,我们还探讨了采用固定阈值以及没有任何基于阈值的滤波的方法。为了更稳健地评估阈值的作用,我们在VisDrone2019数据集上进行了实验[15],该数据集具有复杂的背景和多样化的类别。结果如表5所示。毫无疑问,涉及设置阈值的方法通常超过不设置阈值的方法的性能,从而肯定了阈值的效用。此外,可学习阈值法在APvt上的表现与固定阈值法相似,但在APt和APs上分别提高了0.3个点和0.7个点。这表明大小大于8像素的微小目标对阈值更敏感。因此,具有可学习阈值的方法通过对阈值的精细调整来获得更好的性能。
不同特征增强方法的有效性。在本节中,我们将探索使用Cascade R-CNN框架的各种特征增强技术,以结合来自差分图的先验知识。除了采用元素方式的注意力之外,我们还尝试了融合方法,将二元差分图与特征图连接起来,并探索了在两者之间执行直接元素方式乘法的方法。如表6所示。显然,元素方式的注意力明显超过其他方法的性能。直接融合会带来更多的噪声,降低差分图的空间位置信息,使用拼接操作的融合方法效果较弱。使用元素乘法的方法被认为过于简单和基本,因为差分图中的许多非活动区域可能导致特征图中的原始特征被抹掉,最终损害检测能力。因此,我们在DGFE中选择了元素方式的注意力,它提供了一个更复杂的解决方案。
高频差分图的探索。近年来,一些图像重建方法[23,58]在频域对图像进行建模。图像的高频信息包括边缘、纹理等细节,而这些细节恰恰是图像自重建中难以恢复的部分。特别是,噪声也被认为是高频信息的一部分,非常微小的物体可以近似为只有几个像素大小的类噪声点。受此启发,我们进一步利用快速傅立叶变换算法分离原始输入图像和重构图像的高频分量,构建高频差分图,如图3所示。
可以清楚地看到,尽管高频差分图和像素差分图非常相似,高频差分图在一些无人机目标上有更精细的轮廓。此外,高频差分图显著降低了噪声信号。然而,这也会导致某些较小的无人机物体在高频差图中显得更加模糊。然后,我们用高频差分图(HFD)代替像素差分图(PD),并使用Cascade R-CNN w/ SR-TOD在DroneSwarms上进行实验。结果如表7所示。可以看出,与PD相比,HFD有0.1 AP的提高。此外,APvt和APt分别提高了0.3分和0.2分。这表明高频差分图相比像素差分图可以为微小物体提供更准确的先验。因此,我们认为微小目标特征提取中丢失严重的信息主要在于高频分量。注意,与基线相比,使用像素差图和高频差图的检测性能非常相似。考虑到计算效率,我们使用像素差图作为SR-TOD的基本设置。然而,高频差分图显示了我们的方法进一步探索的潜力。更多的消融实验将在补充材料中提供。
4.5 可视化分析
为了更清晰直观地展示DGFE的效果,我们对DroneSwarms进行了可视化。结果如图4所示。从第二行结果可以看出,在特征增强之前,检测模型对微型无人机的关注不够。一些微小物体的信号非常微弱,几乎被湮灭,导致隐形。第三行结果表明,SR-TOD显著增强了微小目标的特征表示,使得微小目标对检测器可见且清晰。
5 Conclusion
在本文中,我们分析了微小目标检测中信息丢失的挑战,以及试图缓解这一问题的生成方法所面临的局限性。为此,我们引入了一种图像自重建机制,构建差分图作为微小物体的先验信息,使特征更容易被检测器看到。然后,我们进一步设计了差分图引导特征增强(DGFE)模块来改进微小物体的特征表示,提供更清晰的表示。在我们提出的DroneSwarms和其他两个数据集上的实验表明了SR-TOD的优越性和鲁棒性。在未来,我们将探索更有效的方法来构建更精确的微小物体差分图。
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。