Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the Wild 链接到标题

* Authors: [[Haibo Jin]], [[Shengcai Liao]], [[Ling Shao]]

初读印象链接到标题

PIPNet 提出了一种粗粒度heatmap之后细粒度回归的关键点检测算法，结合了 heatmap方法高精度和回归方法高速度的优点，在多个bmk上取得了很好的效果。

文章骨架链接到标题

%%创新点到底是什么?%% novelty:: 结合了 heatmap 和 regression 的优点，达到又快又好的关键点检测效果

%%有什么意义？%% significance:: 保证 heatmap 类方法高精度的同时保证了推理速度。

%%有什么潜力?%% potential::

TL;DR 链接到标题

当前主流的 landmark 检测方法主要有两类，一类基于 heatmap 的，如图3(b) 所示，一类直接回归坐标，如图3(a)所示。 heatmap 方法优点是准确性高，缺点是计算复杂度高、缺少全局约束（表现如被遮挡区域预测不受控制），而直接回归坐标的方法计算复杂度低且有比较好的全局形状约束，但是精度相对较低。

本文提出一种名为 PIPNet 的方法，希望结合两类方法的优点。

计算复杂度问题链接到标题

首先，为了解决 heatmap 方法计算复杂度高的问题， PIPNet 取消了上采样过程，直接在下采样后的 $N\times{W_I/s}\times{H_I/s}$ s 为 stride，N 为landmark 数目, $W_I,H_I$ 分别为输入分辨率，比如输入 256x256 的数据，s = 32，那么获得的 feature map 大小为 8x8，通过 feature map 上最大值定位当前关键点的粗糙位置，显然这个分辨率的 faeture map 只对应 64 个位置是不足以应对 landmark 检测任务的，为此，作者额外增加了一个 $2\times{N}$ 的分支 offset 预测分支，这个分支的输出是以粗糙位置所在的 grid 的左上角为基准的精细位置。具体结构如图 3(c) 所示，而坐标形式的 gt 映射到新结构的过程如图 4 所示。

全局信息感知能力链接到标题

如图 5 所示，当人脸角度很大时，PIPNet 和 feature map 预测一样会存在很大的偏差。这是因为坐标回归方法输出来源于 fc，所有点的feature 能互相感知到，但是 PIPNet 各个点是相互独立获取的，缺乏这样的全局信息。

为了提升模型的全局感知能力，在上面模型的基础上，作者提出了 neighbor regression module (NRM) 模块，在预测本身的 offset 以外，这个分支还会预测当前点周围最近的 C 个点的 offset。 neighbors.

泛化能力问题链接到标题

为了提升模型的泛化能力，提出了 self-training with curriculum (STC) 自学习模块，和传统自学习一直针对一个任务进行不同， STC 会基于异源数据从难到易的三个任务学习。具体来说三个任务不同之处是 feature map 对应的 stride 不同，也就是对应的分辨率不同，越大的 stride 对应的分辨率越低，存在的负样本数量越少，也即任务越简单。

具体步骤：

用人工标注的图片训练 PIPNet；
用上一步得到的模型生成未标注数据的伪标签；
使用标注和伪标签生成新的数据集；
用人工数据集训练 task3，新数据集训练 task 1- 2 重复 2-4 步骤

References 链接到标题

10.1109/BTAS.2017.8272731
10.1145/1553374.1553380
10.1109/ICCV.2013.191
10.1109/CVPR42600.2020.00590
10.1007/978-3-319-46454-1_8
[[@chenFaceAlignmentKernel2019]]
10.1109/CVPR.2018.00352
[[@dapognyDeCaFADeepConvolutional2019]]
10.1007/s11263-018-1134-y
10.1109/CVPR42600.2020.00525
10.1109/CVPR.2018.00110
10.1109/ICCV.2019.00087
10.1109/CVPR.2018.00047
10.1109/CVPR.2017.392
[[@fengWingLossRobust2018]]
This reference does not have DOI 😵
This reference does not have DOI 😵
10.1109/CVPR.2014.306
10.1109/CVPRW.2017.255
10.1109/CVPR.2016.619
10.1109/CVPR.2018.00167
10.1109/ICCV.2019.00140
This reference does not have DOI 😵
10.1109/CVPR.2019.00503
10.1109/ICCV.2017.409
This reference does not have DOI 😵
10.1109/ICCVW.2011.6130513
[[@kumarLUVLiFaceAlignment2020]]
10.1109/TPAMI.2012.191
10.1109/TPAMI.2017.2734779
10.1109/CVPR.2017.713
10.1109/ICCV.2015.425
10.1109/CVPR.2019.00358
This reference does not have DOI 😵
10.1109/CVPR.2017.393
10.1109/CVPR.2018.00088
10.1007/978-3-319-46484-8_29
10.1109/CVPR.2017.395
10.1007/978-3-030-01264-9_17
10.1109/CVPR.2016.146
10.1109/ICCV.2019.01025
10.1109/TIP.2016.2518867
10.1109/ICCV.2019.01020
10.1007/978-3-319-24574-4_28
10.1109/ICCVW.2013.59
10.1109/CVPR.2019.00712
10.1109/CVPR.2018.00474
10.1109/ICCVW.2015.132
10.1109/CVPR.2013.446
[[@taiHighlyAccurateStable2019]]
10.1109/CVPR.2014.220
10.1007/978-3-030-01219-9_21
10.1109/CVPR.2016.262
10.1109/CVPR.2016.453
[[@valleDeeplyInitializedCoarsetofineEnsemble2018]]
10.1016/j.cviu.2019.102846
This reference does not have DOI 😵
10.1109/ICCV.2019.00707
10.1109/CVPR.2016.511
10.1109/CVPRW.2017.261
[[@wuLookBoundaryBoundaryAware2018b]]
10.1007/978-3-030-01231-1_29
10.1109/CVPRW.2017.253
10.1109/CVPR.2016.596
10.1109/ICCV.2017.113
10.1109/CVPR.2019.00225
10.1109/CVPRW.2017.263
10.1109/TPAMI.2015.2469286
10.1007/978-3-030-58621-8_31
10.1007/978-3-030-01261-8_11
10.1109/CVPR.2019.00360
This reference does not have DOI 😵
10.1109/CVPR.2016.371
10.1109/CVPR.2019.00078
10.1109/ICCV.2019.00023

Currently 7 references inside library! @2022-12-28

Pixel-in-Pixel Net: Towards Efficient Facial Landmark Detection in the Wild 链接到标题

初读印象 链接到标题

文章骨架 链接到标题