InSPyReNet学习笔记

张开发
2026/6/9 18:43:24 15 分钟阅读
InSPyReNet学习笔记
【2022】Revisiting Image Pyramid Structure for High Resolution Salient Object DetectionInSPyReNet (Inverse Saliency Pyramid Reconstruction Network)逆显著性金字塔重建网络是基于图像金字塔的SOD框架只使用低分辨率的数据集实现高分辨率高质量的预测。SOD即Salient object detection显著性目标检测旨在区分视觉上最明显的区域对显著图的轮廓建模以更好地理解显著对象图片主体的结构。项目路径GitHub - plemeri/InSPyReNet: Official PyTorch implementation of Revisiting Image Pyramid Structure for High Resolution Salient Object Detection (ACCV 2022)项目输出包含前景背景分离的mask图 (RGB) 或替换新背景的结果图等多种形式。网络结构Figure 1. InSPyReNet网络结构。(a) 将stage -3的初始显著图和更高阶段的拉普拉斯显著图以EXPAND运算结合重构为原始输入大小。(b) 通过REDUCE操作将ground-truth解构为较小的阶段以预测每个阶段的显著性图。Swin Transformer作为backbone用于HR prediction用平行轴向注意力编码器 (PAA-e) 作为多尺度编码器以减少backbone特征图的通道数量并使用平行轴向注意力解码器 (PAA-d) 在最小阶段(即stage -3)预测初始显著性图。采用这两种模块通过非局部操作捕获全局上下文利用轴向注意机制(axial attention mechanism)使其高效。以往基于金字塔的像素级预测方法从stage-5开始到stage-2结束因为丢失stage-1和stage-0 (stage-0即输入图stage-1即HW/2) 所以导致边界重构不完整。论文改为从stage-3开始图像金字塔并且重构到stage-0。为了恢复不存在的阶段(Stage-1, Stage-0)的尺度在适当的位置使用双线性插值。在每个阶段上使用一个基于自我注意的解码器Scale Invariant Context Attention (SICA)以预测拉普拉斯显著图并基于Laplacian显著图从高阶到低阶重构显著图。Scale Invariant Context AttentionFigure 2. SICA结构基于注意力的像素级预测解码器在输入图像的分辨率大于训练设置时由于输入图像的尺寸较大对特征图进行空间维度的扁平化操作和矩阵乘法的非局部操作时会存在序列推理差异导致输出结果不准确。因此提出SICA用于鲁棒拉普拉斯显著性预测的尺度不变上下文注意模块。针对序列推理偏差基于训练时间的不同shape (h, w) 对特征图x和上下文映射图c进行resize。对于context map与OCRNet不同由于只能访问saliency map是不够的所以后续会生成多个context map。通过SICA可以为高分辨率的图像计算更准确的拉普拉斯显著图因此可以应用金字塔混合实现高分辨率预测。Inverse Saliency Pyramid Reconstruction拉普拉斯金字塔是一种图像压缩技术它存储了低通滤波图像与原始图像之间的差异即可以将拉普拉斯图像解释为低通滤波信号的余数即高频细节。基于该原理论文构建了一个拉普拉斯金字塔专注于边界细节并重建从最小尺寸阶段到其原始大小的显著性图。从stage-3的显著图开始作为初始显著图并从拉普拉斯显著图中聚合高频细节即EXPAND操作。为了恢复显著性细节从SICA中添加拉普拉斯显著图。其中S是显著图U为拉普拉斯显著图g(m, n)是一个高斯滤波器其中核大小和标准差按经验值分别设置为7和1。Supervision Strategy and Loss Functions由于高阶预测的显著性图像在空间维度上较小可能导致各阶段尺度不一致尤其是目标主体的边界区域stage-3的显著性输出在物理上无法超过stage-2的细节因此论文选择为每个阶段提供合适的ground-truth如Figure 1 (b)即REDUSE操作从最大的尺度出发解构上层ground-truth直到得到网络每个阶段的ground-truth。对于损失函数采用二元交叉熵(BCE)损失和像素位置感知加权策略此外为了使生成的拉普拉斯显著图遵循金字塔结构通过REDUCE操作将解构到第j阶段后用金字塔一致性损失来加强与按REDUCE操作后得到的显著图的相似性。在训练过程中对下层显著性图进行正则化以遵循图像金字塔的结构。最终总体损失为其中以平衡各阶段的损失大小。最后在显著图输入SICA和从高阶重建过程前使用Stop-Gradient以迫使每个阶段的显著输出在训练阶段集中在每个尺度上并且只在推理过程中相互影响。该策略通过明确地防止低级梯度流影响高阶来促进stage-wise ground-truth scheme。因此具有高频细节的监督将不会影响高级解码器而是只想要拥有显著对象的抽象形状。虽然这种策略可能会影响多尺度方案的性能但后续使用多尺度编码器和SICA的不同阶段的特征映射来弥补这一问题。Pyramid Blending组合不同输入得到的多个显著金字塔以解决图像变大时存在的ERF (effective receptive fields) 偏差问题。Figure 3. 用于高分辨率预测的InSPyReNet金字塔混合示意图首先用InSPyReNet对原始图像和调整大小的图像生成显著性金字塔即LR和HR显著性金字塔如Figure 3最左和最右。然后不再从HR金字塔重建显著性图而是从LR金字塔的最低阶段开始。直观地说LR金字塔与HR金字塔一起延伸从而构建了一个7级显著性金字塔。对于HR金字塔重建首先计算对前一阶段显著图的膨胀和侵蚀操作并减去它们得到拉普拉斯显著图的过渡区域并与之相乘过渡区域用于过滤掉HR金字塔中不需要的噪声因为需要应用的边界细节应该只存在于边界区域周围。

更多文章