真锋
永远保持一颗学习和专注的心
嵌入式视觉
Faster RCNN网络理解

本文为学习笔记,部分内容参考网上资料和论文而写的,涉及到Faster RCNN网络结构理解和代码实现原理。

Faster RCNN网络结构

https://www.armcvai.com/wp-content/uploads/2019/08/image-24.png
faster rcnn网络结构

python 版本中的 VGG16 模型中的 faster rcnn 的网络结构如下图,可以清晰的看到该网络对于一副任意大小PxQ的图像,首先缩放至固定大小MxN,然后将MxN图像送入网络;而 Conv layers 中包含了 13个 conv 层 + 13 个 relu 层 + 4个 pooling 层;RPN 网络首先经过 3×3 卷积,再分别生成positive anchors和对应bounding box regression偏移量,然后计算出proposals;而 Roi Pooling 层则利用 proposals 从 feature maps 中提取 proposal feature 送入后续全连接和 softmax 网络作classification(即分类proposal到底是什么object)。 

https://www.armcvai.com/wp-content/uploads/2019/08/image-28.png
faster rcnn网络详细结构

RPN在Extractor(特征提取backbone)输出的feature maps的基础之上,先增加了一个3*3卷积(用来语义空间转换?),然后利用两个 1x1 的卷积分别进行二分类(是否为正样本)和位置回归。进行分类的卷积核通道数为9×2(9个anchor,每个anchor二分类,使用交叉熵损失),进行回归的卷积核通道数为9×4(9个anchor,每个anchor有4个位置参数)。RPN是一个全卷积网络(fully convolutional network),这样对输入图片的尺寸就没有要求了。 
RPN完成positive/negative分类 + bounding box regression坐标回归两个任务。

Conv layers

论文中Faster RCNN 虽然支持任意图片输入,但是进入 Conv layers 网络之前会对图片进行规整化尺度操作,如可设定图像短边不超过600,图像长边不超过1000,我们可以假定MN=1000600(如果图片少于该尺寸,可以边缘补0,即图像会有黑色边缘)。

  1. 13 个 conv 层:kernel_size=3, pad=1, stride=,卷积公式:N = (W − F + 2P )/S+1,所以可知 conv 层不会改变图片大小
  2. 13 个 relu 层: 激活函数,增加非线性,不改变图片大小
  3. 4 个 pooling 层:kernel_size=2,stride=2pooling 层会让输出图片变成输入图片的1/2。

所以经过Conv layers,图片大小变成(M/16)*(N/16),即:6040(1000/16≈60,600/16≈40);则,Feature Map就是6040*512-d(注:VGG16是512-d,ZF是256-d),表示特征图的大小为 60*40,数量为 512

RPN网络

RPN 在 Extractor(特征提取backbone)输出的feature maps的基础之上,先增加了一个3*3卷积(用来语义空间转换?),然后利用两个 1x1的卷积分别进行二分类(是否为正样本)和位置回归。RPN 网络在分类和回归的时候,分别将每一层的每一个 Anchor 分为背景和前景两类,以及回归四个位移量,进行分类的卷积核通道数为9×2(9个anchor,每个anchor二分类,使用交叉熵损失),进行回归的卷积核通道数为9×4(9个anchor,每个anchor有4个位置参数)。RPN是一个全卷积网络(fully convolutional network),这样对输入图片的尺寸就没有要求了。 

RPN完成positive/negative分类 + bounding box regression坐标回归两个任务。

Anchors

RPN中,作者提出了anchors,所谓anchors,实际上就是一组rpn/generate_acchors.py生成的一组矩形框,运行官方代码的generate_anchors.py可以得到以下示例输出:

[[ -84. -40. 99. 55.] 
[-176. -88. 191. 103.] 
[-360. -184. 375. 199.] 
[ -56. -56. 71. 71.] 
[-120. -120. 135. 135.] 
[-248. -248. 263. 263.] 
[ -36. -80. 51. 95.] 
[ -80. -168. 95. 183.] 
[-168. -344. 183. 359.]]

其中每行的4个值 \( (x_{1},  y_{1},  x_{2},  y_{2}) \)表矩形左上和右下角点坐标。9个矩形共有3种形状,长宽比为大约为width:height ϵ {1:1,1:2,2:1}三种,如下图:实际上通过anchors就引入了检测中常用到的多尺度方法。 

https://www.armcvai.com/wp-content/uploads/2019/08/image-25.png
anchor

然后利用这 9 种anchor在特征图左右上下移动(遍历),每一个特征图上的任意一个点都有 9 个 anchor,最终在论文中生成了(H/16)*(W/16)*9个 anchor。对于一个512×62×37的feature map,有 62×37×9~ 20000个anchor。 也就是对一张图片,有20000个左右的anchor。这种做法很像是暴力穷举,20000多个anchor,哪怕是蒙也能够把绝大多数的ground truth bounding boxes蒙中。 
因此,anchor 的数量和 feature map 相关,不同的 feature map 对应的anchor 数量也不一样。

生成RPN网络训练集

在这个任务中,RPN做的事情就是利用(AnchorTargetCreator)将20000多个候选的 anchor 选出256个anchor进行分类和回归位置。选择过程如下:

  • 对于每一个ground truth bounding box (gt_bbox),选择和它重叠度(IoU)最高的一个anchor作为正样本;
  • 对于剩下的anchor,从中选择和任意一个gt_bbox重叠度超过 0.7 的 anchor ,同样作为正样本;
  • 随机选择和 gt_bbox 重叠度小于 0.3 的 anchor 作为负样本。

同时,保证正样本为 128 个,负样本为 128 个,负样本和正样本的总数为256 ,正负样本比例 1:1

positive/negative二分类

1*1卷积实现,卷积通道数为9×2(9个anchor,每个anchor二分类,使用交叉熵损失),后面接softmax分类获得positive anchors,也就相当于初步提取了检测目标候选区域box(一般认为目标在positive anchors中)。 
所以可知,RPN的一个任务就是在原图尺度上,设置了密密麻麻的候选Anchor。然后用cnn(1*1卷积,卷积通道数9*2)去判断哪些Anchor是里面有目标的positive anchor,哪些是没目标的negative anchor

bounding box regression

在挑选 1:1 正负样本比例的 anchor 用作 RPN 训练集后,还需要计算 anchor box 与 ground truth 之间的偏移量: \(t_x t_y t_w t_h\)。

对于每个anchor, gt_label 要么为1(前景),要么为0(背景),而 gt_loc 则是由4个位置参数 (tx,ty,tw,th) 组成,这样比直接回归座标更好。在Faster RCNN原文,positive anchorground truth之间的平移量 (\ (t_{x}, t_{y}) \) 与尺度因子 \( (t_{w}, t_{h}) \)计算公式如下 :

\(t_{x} = (x-x_{a})/w_{a}, t_{y}=(y-y_{a})/h_{a},\)
\(t_{w} = log(w/w_{a}), t_{h}=log(h/h_{a}),\)
\(t^{*}_{x} = (x^{*}-x_{a})/w_{a}, t^{*}_{y}=(y^{*}-y_{a})/h_{a},\)
\(t^{*}_{w} = log(w^{*}/w_{a}), t^{*}_{h}=log(h^{*}/h_{a}),\)

参数解释:where \( x, y, w, \) and h denote the box’s center coordinates and its width and height. Variables \( x, x_{a} \), and \( x^{*}\) are for the predicted box, anchor box, and groundtruth box respectively likewise for \( y, w, h \)). 

计算分类损失用的是交叉熵损失,而计算回归损失用的是Smooth_l1_loss. 在计算回归损失的时候,只计算正样本(前景)的损失,不计算负样本的位置损失。loss计算公式如下:

https://www.armcvai.com/wp-content/uploads/2019/08/image-26.png

公式解释:Here,  \(i\)  is the index of an anchor in a mini-batch and \(p_{i}\) is the predicted probability of anchor i being an object. The ground-truth label \(p^{*}_{i}\) is 1 if the anchor is positive, and is 0 if the anchor is negative. \(t_{i}\) is a vector representing the 4 parameterized coordinates of the predicted bounding box, and \(t^{*}_{i}\) is that of theground-truth box associated with a positive anchor.

RPN生成RoIs

Proposal Layer层,RoIs(region of interests),RPN在自身训练的同时,还会提供RoIs(region of interests)给Fast RCNN(RoIHead)作为训练样本。RPN生成RoIs 的过程( ProposalCreator )如下:

  1. 对于每张图片,利用它的 feature map, 计算(H/16)× (W/16)×9(大概20000)个anchor属于前景的概率,以及对应的位置参数`。选取概率较大的12000个anchor;
  2. 利用回归的位置参数,修正这12000个anchor的位置,得到RoIs
  3. 利用非极大值((Non-maximum suppression, NMS)抑制,选出概率最大的2000个RoIs。

在 RPN 中,从上万个 anchor中,选一定数目(2000或300),调整大小和位置生成RoIs(),用于 ROI Head/Fast RCNN训练(ProposalTargetCreator 会选择128个RoIs用以训练)。

注意:在inference的时候,为了提高处理速度,12000和2000分别变为6000和300。Proposal Layer层,这部分的操作不需要进行反向传播,因此可以利用numpy/tensor实现。

RPN网络总结

  • RPN网络结构:生成anchors -> softmax分类器提取positvie anchors -> bbox reg回归positive anchors -> Proposal Layer生成proposals
  • RPN的输出:RoIs(region of interests)(形如 2000×4 或者 300×4 的 tensor

ROIHead/Fast R-CNN

RPN 只是给出了 2000个 候选框,RoI Head 在给出的 2000 候选框之上继续进行分类和位置参数的回归。ROIHead 网络包括 RoI pooling + Classification(全连接分类)两部分,网络结构如下: 

https://www.armcvai.com/wp-content/uploads/2019/08/image-27.png
ROI Head网络结构

由于 RoIs 给出的 2000个 候选框,分别对应feature map不同大小的区域。首先利用 ProposalTargetCreator 挑选出 128 个 sample_rois, 然后使用了RoIPooling 将这些不同尺寸的区域全部pooling到同一个尺度(7×7)上,输出7*7大小的feature map,送入后续的全连接网络

  • FC 21 用来分类,预测RoIs属于哪个类别(20个类+背景)
  • FC 84 用来回归位置(21个类,每个类都有4个位置参数)

Roi pooling

RoI pooling 负责将 128 个RoI区域对应的feature map进行截取,而后利用RoI pooling层输出7*7大小的feature map,送入后续的全连接网络。从论文给出的Faster R-CNN网络结构图中,可以看到 Rol pooling 层有2个输入:

  • 原始的 feature maps
  • RPN输出的 RoIs (proposal boxes, 大小各不相同)

RoI Pooling的两次量化过程以及RoI Align如何改进: 
(1)、在原图上生成的region proposal 映射到feature map需要除以16或者32的时候,边界出现小数,这是第一次量化。 
(2)、在每个roi里划分成k×k(7×7)的bins,对每个bin中均匀选取多少个采样点,然后进行max pooling,也会出现小数,这是第二次量化。

ROI Align 并不需要对两步量化中产生的浮点数坐标的像素值都进行计算,而是设计了一套优雅的流程。如下图,其中虚线代表的是一个feature map,实线代表的是一个roi(在这个例子中,一个roi是分成了2*2个bins),实心点代表的是采样点,每个bin中有4个采样点。我们通过双线性插值的方法根据采样点周围的四个点计算每一个采样点的值,然后对着四个采样点执行最大池化操作得到当前bin的像素值。 (更多内容,参考这篇文章)

https://www.armcvai.com/wp-content/uploads/2019/08/image-29.png
RoI Align示意图

RoI Align做法:假定采样点数为4,即表示,对于每个2.97 x 2.97的bin,平分四份小矩形,每一份取其中心点位置,而中心点位置的像素,采用双线性插值法进行计算,这样就会得到四个小数坐标点的像素值。

ROI Head训练

RPN会产生大约2000个RoIs,ROI Head 在给出的 2000 个 RoIs候选框基础上继续分类(目标分类)和位置参数回归。注意,这2000个RoIs不是都拿去训练,而是利用 ProposalTargetCreator(官方源码可以查看类定义) 选择128个RoIs用以训练。选择的规则如下:

  • RoIs 和 gt_bboxes 的IoU大于 0.5 的,选择一些(比如 32 个)作为正样本;
  • 选择 RoIs 和 gt_bboxes 的IoU小于等于 0(或者 0.1, 0.5 )的选择一些(比如 128 – 32 = 96 个)作为负样本。

选择出的 128 个 RoIs,正负样本比例为 3:1,在源码中为了便于训练,还对他们的gt_roi_loc 进行标准化处理(减去均值除以标准差)。 
RPN一样,对于分类问题, 直接利用交叉熵损失. 而对于位置的回归损失,一样采用 Smooth_L1 Loss, 只不过只对正样本计算损失,而且是只对正样本中的这个类别4个参数计算损失。举例来说:

  • 一个 RoI 在经过FC 84 后会输出一个 84 维的 loc 向量. 如果这个 RoI 是负样本, 则这84维向量不参与计算 L1_Loss
  • 如果这个 RoI 是正样本,属于label K, 那么它的第 K×4, K×4+1 ,K×4+2, K×4+3 这4个数参与计算损失,其余的不参与计算损失。

ROI Head测试

ROI Head 测试的时候对所有的 RoIs(大概 300 个左右) 计算概率,并利用位置参数调整预测候选框的位置。然后再用一遍极大值抑制(之前在RPN的ProposalCreator用过)。 
这里注意:

  • 在 RPN 的时候,已经对 anchor 做了一遍 NMS,在 Fast RCNN 测试的时候,还要再做一遍,所以在Faster RCNN框架中,NMS操作总共有 2 次
  • 在 RPN 的时候,已经对 anchor 的位置做了回归调整,在 Fast RCNN 阶段还要对 RoI 再做一遍
  • 在 RPN 阶段分类是二分类,而 Fast RCNN/ROI Head 阶段是 21 分类

概念理解

在阅读Faster RCNN论文和源码中,我们经常会涉及到一些概念的理解。

四类损失

在训练Faster RCNN的时候有四个损失:

  • RPN 分类损失:`anchor 是否为前景(二分类)
  • RPN位置回归损失:anchor 位置微调
  • RoI 分类损失:RoI 所属类别(21分类,多了一个类作为背景)
  • RoI位置回归损失:继续对 RoI 位置微调

四个损失相加作为最后的损失,反向传播,更新参数

三个creator

Faster RCNN官方源码中有三个 creator 分别实现不同的功能,不能弄混,各自功能如下:

  • AnchorTargetCreator : 负责在训练RPN的时候,从上万个anchor中选择一些(比如256)进行训练,以使得正负样本比例大概是1:1. 同时给出训练的位置参数目标。 即返回gt_rpn_loc和gt_rpn_label。
  • ProposalTargetCreator: 负责在训练RoIHead/Fast R-CNN的时候,从 RoIs 选择一部分(比如128个,正负样本比例 1:3 )用以训练。同时给定训练目标, 返回(sample_RoI, gt_RoI_loc, gt_RoI_label)
  • ProposalCreator: 在RPN中,从上万个anchor中,选择一定数目(2000或者300),调整大小和位置,生成RoIs,用以Fast R-CNN训练或者测试。

其中 AnchorTargetCreator 和 ProposalTargetCreator 是为了生成训练的目标,只在训练阶段用到,ProposalCreator 是 RPN 为 Fast R-CNN 生成 RoIs ,在训练和测试阶段都会用到。三个 creator 的共同点在于他们都不需要考虑反向传播(因此不同框架间可以共享numpy实现)。

参考资料

一文读懂Faster RCNN
从编程实现角度学习Faster RCNN
你真的学会了RoI Pooling了吗
Faster RCNN 学习笔记

赞赏

发表评论

textsms
account_circle
email

嵌入式视觉

Faster RCNN网络理解
本文为学习笔记,部分内容参考网上资料和论文而写的,涉及到Faster RCNN网络结构理解和代码实现原理。 Faster RCNN网络结构 faster rcnn网络结构 python 版本中的 VGG16 模型中…
扫描二维码继续阅读
2019-08-13
标签
2019年十二月
« 9月    
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
近期文章