【YOLOv8改进 - 注意力机制】 CAA: 上下文锚点注意力模块,处理尺度变化大或长形目标

YOLO大师 2024-10-19 13:01:01 阅读 88

YOLOv8目标检测创新改进与实战案例专栏

专栏目录: YOLOv8有效改进系列及项目实战目录 包含卷积,主干 注意力,检测头等创新机制 以及 各种目标检测分割项目实战案例

专栏链接: YOLOv8基础解析+创新改进+实战案例

介绍

image-20240810101853411

摘要

遥感图像(RSI)中的目标检测经常面临一些日益增加的挑战,包括目标尺度的大幅变化和上下文的多样性。以往的方法尝试通过扩展主干网络的空间感受野来应对这些挑战,通常采用大核卷积或膨胀卷积。然而,前者通常会引入大量的背景噪声,而后者则有可能生成过于稀疏的特征表示。在本文中,我们引入了多核嵌入网络(PKINet)来处理上述挑战。PKINet 采用了多尺度卷积核(不含膨胀)来提取不同尺度的目标特征并捕捉局部上下文信息。此外,还并行引入了上下文锚点注意力(CAA)模块,以捕捉长距离的上下文信息。这两个组件共同作用,提升了PKINet在四个具有挑战性的遥感检测基准(即DOTA-v1.0、DOTA-v1.5、HRSC2016和DIOR-R)上的性能。

文章链接

论文地址:论文地址

代码地址:代码地址

基本原理

上下文锚点注意力模块(Context Anchor Attention, CAA) 是PKINet中一个关键的模块,设计用于捕捉远程上下文信息,并在特征提取过程中增强中心特征的表达能力。CAA模块的引入旨在解决遥感图像中目标检测时,远程上下文信息不足的问题,特别是在处理尺度变化大或长形目标时表现突出。

1. 模块结构与操作

局部特征提取:首先,CAA模块通过全局平均池化操作获取局部区域特征。接下来,这些特征通过一个1×1的卷积层,以减少维度和计算量。

条带卷积:为了有效捕捉远程上下文信息,CAA模块采用了两个深度可分离条带卷积(strip convolutions),分别在水平方向和垂直方向上进行。这种设计被用来模拟一个大核卷积的效果,能够在保持轻量化的同时,显著扩大感受野。



声明

本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。