PSPNet – Pyramid Scene Parsing Network
核心模块是金字塔池化模块( pyramid pooling module),它能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。实验表明这样的先验表示(即指代PSP这个结构)是有效的,在多个数据集上展现了优良的效果。
1.pyramid pooling module
该模块融合了4种不同金字塔尺度的特征,第一行红色是最粗糙的特征–全局池化生成单个bin输出,后面三行是不同尺度的池化特征。为了保证全局特征的权重,如果金字塔共有N个级别,则在每个级别后使用1×1的卷积将对于级别通道降为原本的1/N。再通过双线性插值获得未池化前的大小,最终concat到一起。
金字塔等级的池化核大小是可以设定的,这与送到金字塔的输入有关。论文中使用的4个等级,核大小分别为1×1,2×2,3×3,6×6
2.整体架构
在PSP模块的基础上,PSPNet的整体架构如下:
CNN是经过预训练的模型(ResNet101)和空洞卷积策略,用来实现提取feature map,提取后的feature map是输入的1/8大小
feature map经过Pyramid Pooling Module得到融合的带有整体信息的feature,在上采样与池化前的feature map相concat
最后通过一个卷积层得到最终输出。
3.辅助loss
在ResNet101的基础上做了改进,除了使用后面的softmax分类做loss,额外的在第四阶段添加了一个辅助的loss,两个loss一起传播,使用不同的权重,共同优化参数。后续的实验证明这样做有利于快速收敛。
4.在Cityscapes数据集的表现
5.结论
论文在结构上提供了一个pyramid pooling module,在不同层次上融合feature,达到语义和细节的融合。
最新评论