橦言无忌

一个不想改变世界的程序媛

rpn的原理和作用

前言

rpn原理和作用

1,作用

RPN专门用来提取候选框,一方面RPN耗时少,另一方面RPN可以很容易结合到Fast RCNN中,成为一个整体。

2,实现细节

一个特征图(Faster RCNN的公共Feature Map)经过sliding window处理,得到256维特征,对每个特征向量做两次全连接操作,一个得到2个分数,一个得到4个坐标{然后通过两次全连接得到结果2k个分数和4k个坐标[k指的是由锚点产生的K个框(K anchor boxes)]}

3,anchor box是怎么选取的?

滑窗的中心在原像素空间的映射点称为anchor,以此anchor为中心,生成k(paper中default k=9, 3 scales and 3 aspect ratios/不同尺寸和不同长宽比)个proposals。三个面积尺寸$(128^{2},256^{2},512^{2})$,然后在每个面积尺寸下,取三种不同的长宽比例(1:1,1:2,2:1)

4,为什么提出anchor box?

主要有两个原因:一个窗口只能检测一个目标、无法解决多尺度问题。
目前anchor box尺寸的选择主要有三种方式:人为经验选取、k-means聚类、作为超参数进行学习
为什么使用不同尺寸和不同长宽比? 为了得到更大的交并比(IOU)。

// 代码折叠