YOLOX: Exceeding YOLO Series in 2021 链接到标题

* Authors: [[Zheng Ge]], [[Songtao Liu]], [[Feng Wang]], [[Zeming Li]], [[Jian Sun]]

YOLOX 通过解耦 cls 和 reg 头，更强的 aug, anchor free, muti positive, 简化版的 OTA 做 label assign 在速度和精度上取得了长足进步

旷视base detection 对 YOLO 系列最新改造。主要包括：

解耦 cls 和 reg 头检测任务中分类和回归任务的训练存在冲突问题，因此把两个头给解耦开分别做，这样能够加快模型收敛，同时使 E2E 改造成为可能。
更强的 aug 加入 Mosaic 、 mixup。另外作者提到在最后15个epoch需要关掉它们，不知道是实验结论还是有理论支持。同时观察到加入了更强的 aug 之后 imagenet pretrain 变得没有必要了，直接from scratch训就行。
引入 anchor free 技术最新的 YOLO 架构都是基于 anchor 的，但是大量的 anchor 不利于设备上 npu 和 cpu 之间的数据拷贝，并且节省 anchor clustering 等工作的人力。具体预测每个位置基于grid 左上角的偏移量和宽、高。
multi positive 中心点周围的一些高质量区域对最后预测框同样重要，因此使用中心 3x3 区域替代单一的中心点
使用更先进的 label assign 策略使用简化版的 OTA ¹ label assign 策略 $$c_{i j}=L_{i j}^{c l s}+\lambda L_{i j}^{r e g}$$ 选择 loss 最小的 topk 个预测结果为正样本。
引入 E2E 结构会有掉点，所以最后模型没有使用，后续工作会对这部分做改进。

依靠这些改进， YOLOX 在精度和速度上取得了长足进步，并且取得了 Streaming Perception Challenge 第一名的成绩。