YOLOX: Exceeding YOLO Series in 2021 链接到标题
* Authors: [[Zheng Ge]], [[Songtao Liu]], [[Feng Wang]], [[Zeming Li]], [[Jian Sun]]
初读印象 链接到标题
YOLOX 通过解耦 cls 和 reg 头,更强的 aug, anchor free, muti positive, 简化版的 OTA 做 label assign 在速度和精度上取得了长足进步
旷视base detection 对 YOLO 系列最新改造。 主要包括:
- 解耦 cls 和 reg 头 检测任务中分类和回归任务的训练存在冲突问题,因此把两个头给解耦开分别做,这样能够加快模型收敛,同时使 E2E 改造成为可能。
- 更强的 aug 加入 Mosaic 、 mixup。 另外作者提到在最后15个epoch需要关掉它们,不知道是实验结论还是有理论支持。同时观察到加入了更强的 aug 之后 imagenet pretrain 变得没有必要了,直接from scratch训就行。
- 引入 anchor free 技术 最新的 YOLO 架构都是基于 anchor 的,但是大量的 anchor 不利于设备上 npu 和 cpu 之间的数据拷贝,并且节省 anchor clustering 等工作的人力。 具体预测每个位置基于grid 左上角的偏移量和宽、高。
- multi positive 中心点周围的一些高质量区域对最后预测框同样重要,因此使用中心 3x3 区域替代单一的中心点
- 使用更先进的 label assign 策略 使用简化版的 OTA 1 label assign 策略 $$c_{i j}=L_{i j}^{c l s}+\lambda L_{i j}^{r e g}$$ 选择 loss 最小的 topk 个预测结果为正样本。
- 引入 E2E 结构 会有掉点,所以最后模型没有使用, 后续工作会对这部分做改进。
依靠这些改进, YOLOX 在精度和速度上取得了长足进步,并且取得了 Streaming Perception Challenge 第一名的成绩。
Ota: Optimal transport assignment for object detection. ↩︎