You Only Look One-level Feature 链接到标题

* Authors: [[Qiang Chen]], [[Yingming Wang]], [[Tong Yang]], [[Xiangyu Zhang]], [[Jian Cheng]], [[Jian Sun]]


初读印象 链接到标题

YOLOF 只使用单层 feature map 获得和多层可比的检测效果

文章骨架 链接到标题

%%创新点到底是什么?%% novelty:: 作者把 FPN 抽象成一个多进多出的结构 (MiMo), 同时抽象了三种伴生结构: 单进多出(SiMo) 多进单出(MiSo) 和单进单出(SiSo),然后对比他们在同样训练设置下的结果,基于此提出只使用当成 feature map 获得高精度模型

%%有什么意义?%% significance:: 更高效的检测结构

%%有什么潜力?%% potential::

作者分析了现有 FPN 带来的两个好处一个是能融合多尺度信息,帮助检测不同尺寸的目标,另一个是使用分治的思想把不同尺度目标的检测划分到不同的 layer 处理,简化了任务。

作者把 FPN 抽象成一个多进多出的结构 (MiMo), 同时抽象了三种伴生结构: 单进多出(SiMo) 多进单出(MiSo) 和单进单出(SiSo),然后对比他们在同样训练设置下的结果, 如下图所示:

fig 1

可以看到, SiMo 可以取得和 MiMo 接近(0.9个点)的性能 而其他两个则掉点严重。这说明 FPN 主要作用在 output 上。

为了进一步抹平两者的差距, 作者提出了两点改进:

  1. 使用 dialated encoder 增大单层输入的感受野 fig 5
  2. 为了防止大目标主导训练, 提出了 uniform matching 策略, 保证每个 gt 能够匹配到相同数量的 positive anchor