0%

读论文:Deep Unfolding Network for Image Super-Resolution

这篇CVPR的文章我之前在做面试的project的时候略读过,但是对其中的细节把握的不是很到位,所以这次拿出来再重新精读一遍。

论文背景

对于SISR(单图像超分辨)问题,现在一般的解决方法分为两大种:基于模型的方法(model-based)和基于学习的方法(learning-based)

基于模型的方法(model-based)

经典的退化模型如下:

image-20200812205000287

x是HR图像。k是模糊核。s代表s-折下采样(s-fold downsampler),即只保留每个s×s的patch中的左上角的一个像素。n通常是一个加性的高斯白噪声。

在基于模型的方法中,上面的退化模型得到了广泛的研究,该方法在MAP框架下求解数据项先验项的组合。

优点:可解释性,可以灵活处理不同的放大系数、模糊核、噪声级别

缺点:一般采用双三次退化而不考虑模糊核和噪声水平。然而,双三次退化在数学上是复杂的,这反过来又阻碍了基于模型的方法的发展。

基于学习的方法(learning-based)

经典的基于CNN的方法,基本采用的是端到端(end to end)的训练模型,本质是基于大量数据学习一个双三次退化的LR到HR的非线性映射。

优点:模型容量大、并行计算速度快

缺点:缺乏灵活性,无法灵活处理不同的放大系数、模糊核、噪声级别。

深度展开网络(unfolding/unrolling network)

展开技术为“领域知识”与“数据(和经验)”的结合提供了一种有效的途径。所谓"展开",是指我们将求解一个给定连续模型的迭代优化看成是一个动态系统,进而通过若干可学习模块来离散化这一系统,得到数据驱动的演化过程的方法。

与单纯的学习方法相比,深度展开方法具有可解释性,能够将退化约束融合到学习模型中。

但是作者表示,现有的深度展开方法有以下一种或几种不足:

  • 在不使用CNN的情况下,先验子问题的求解能力不够强大,无法获得良好的性能。
  • 数据子问题没有采用闭合解(closed-form solution),可能会阻碍收敛。
  • 整个推理是通过分段和微调的方式进行训练的,而不是完整的端到端方式。

主要贡献

  • 第一次通过一个单一的端到端训练模型,尝试处理经典退化模型与不同的尺度因子、模糊内核和噪声水平;
  • 为弥合基于模型方法和基于学习的方法之间的差距提供了途径;
  • 本质上提出了一个退化约束(即,估计的HR图像应符合退化过程)和一个先验约束(即,估计的HR图像应该具有自然特征)上的解决方案;
  • 在不同退化设置的LR图像上表现良好,显示了巨大的实际应用潜力。

方法详述

首先对于图像恢复模型,使用MAP最大后验概率,能量函数如下:

image-20200812220245580

即数据项+正则项,\(\sigma\)是高斯噪声的标准差。

利用半二次分裂,分成两个可迭代的子问题:

image-20200812220708705

前者为数据子问题,后者为先验子问题(\(\Phi\)为先验项)。

对两个子问题分别求解:

数据子问题及其模型

image-20200812222444119

数据子问题的形式,利用FFT,有一个闭合解:

image-20200812221036260

其中

image-20200812221126772

image-20200812222521017

转换成网络模型为:

image-20200812223202570

这里,\(\pmb{\rm x}_{k-1}\)是上一次迭代的输出;\(\rm\pmb s\)为缩放系数;\(\rm\pmb k\)为模糊核;\(\rm\pmb y\)为LR图像;\(\alpha_k\)为噪声水平\(\sigma\)和超参数\(\mu_k\)决定的。

值得注意的是,式(8)中不包含可训练参数,这使得数据项与先验项完全解耦,从而具有更好的可推广性。

先验子问题及其模型

image-20200812221138493

这里令: \[ \beta_k =\sqrt{\frac \lambda {\mu_k}} \] 上式就变成了: \[ {\rm\pmb x_k}=\arg \min_{\rm x} \frac 1 {2\beta_k^2}\|\rm\pmb {z_k - x}\|^2+\Phi(x) \] 从贝叶斯的角度来看,它实际上对应于某个噪声水平\(\beta_k\)(和之前的高斯噪声不是同一个)的去噪问题。

于是这个先验模型表示为:

image-20200812221556524

\(\rm\pmb z_k\)为上一个数据模型的输出;\(\beta_k\)是代表“去噪等级”的超参数。

这个先验网络的具体结构采用了U-net+ResNet的结构。按照按照U-Net的设置,ResUNet包括四个尺度,每个尺度在降级和升级操作之间都有一个跳跃连接(skip)。通道数分别是:64, 128, 256, 512。下采样采用跨步卷积,上采样使用转置卷积。

超参数生成器

对于上述两个模型,都存在有超参数,即数据子问题中的\(\alpha_k\)\(\rm \pmb s\)以及先验子问题中的\(\beta_k\)。为了实现端到端的训练,作者提出了另一个超参数生成器模型(hyper-parameter generation)。

其中,数据子问题中的\(\alpha_k=\mu_k\sigma^2\),先验子问题中的\(\beta_k=\sqrt{\frac \lambda {\mu_k}}\)。而\(\sigma\)\(\rm\pmb s\)是作为已知的输入,所以超参数生产器实际上要生成的超参数就是\(\mu_k\)\(\lambda\),所以超参数生成器表示为:

image-20200812231246217

为了使性能更好,每次迭代都使用不同的\(\alpha\)\(\beta\),所以超参数生成器的输出实际为:\(\pmb{\alpha}=[\alpha_1, \alpha_2,\alpha_3,...,\alpha_k]\)\(\pmb{\beta}=[\beta, \beta,\beta,...,\beta]\)

其结构是三层全连接层,前两层的激活函数是ReLU,最后一层为Softplus。

网络总体结构

总体结构如图:

image-20200812232811450

其中,D网络(数据子问题模型)不含可训练参数,图中多个P网络(先验子问题模型)的参数是共享的。

端到端的训练过程

训练数据集设计

使用DIV2K和Flickr2K的作为HR。LR图片由退化模型进行人工合成,缩放系数设置为1、2、3、4,模糊核采用大小为25×25的各向异性高斯核以及运动核,高斯噪声等级设置为[0, 25]。

损失函数

一开始先使用L1损失进行训练,得到模型之后,再使用:L1损失+VGG感知损失+相对对抗损失 (relativistic adversarial loss, 就是Relativistic GAN中的对抗损失),进行模型的调整,称为USRGAN。

实验结果

PSNR结果

image-20200812233035695

可视化结果

image-20201119212925063

对D和P网络的结果分析

观察不同迭代次数的结果:

image-20201119212942410

作者发现,P也可以作为高频恢复的细节增强器。此外,P也没有减少模糊核引起的退化,验证了D和P之间的解耦。

对H网络的结果分析

image-20201119212958722

可以看出随着迭代次数的增加,beta呈递减趋势;但beta随着尺度因子和噪声水平的增加而增加。这说明,在迭代过程中,HR的先验会逐渐减少占比;以及,在复杂的退化过程中,需要一个更大的\(\beta\)来处理这一ill-posed问题。

总结与思考

  • 这类深度展开的方法,通过MAP+半二次分裂,把model-based和learning-based的方法的优点结合在一起,感觉很惊艳。这相当于让“知识”和“数据”对最终的模型都有了贡献。
  • 作者在文中还提到了一个与深度展开有点类似的工作,叫做deep plug-and-play方法,也可以把model-based和learning-based的方法结合起来,我准备把之后把这篇工作也仔细看一下