读论文：VarSR：Variational Super-Resolution Network for Very Low Resolution Images

简述

本文提出的方法要完成的任务是在超低分辨率下的超分辨，正视超分辨的ill-posed属性，从一张LR图像中恢复出多张可能的HR图像。这个方法被作者称为VarSR。

主要思路是：通过最小化在HR与LR的KL散度来连接LR图像与HR图像间的表示能力，从而把LR图像和HR图像同时encode到同一个隐变量特征空间。然后SR模块的输入是这个隐变量，生成一个与Ground-truth HR之间的像素/感知上的相似的SR结果。由于HR图像的多样性程度高于LR图像，因此HR图像的潜在变量要比LR图像密集得多。所以在推理过程中，从隐变量空间中多次取样，从而产生多种SR图像。整个过程如下图所示。

方法详述

整体框架描述

传统的SR框架都是这样的： \[ \hat{I}_{H}=g_{S R}\left(I_{L}\right) \] 使用SR图片$\hat{I}_{H}$与真实HR图像$I_{H}$之间的重构损失、感知损失、对抗损失训练。但是，由于$I_{H}$的详细信息难以在$I_{L}$中编码，使得超分辨率模型无法推断出可靠的输出，特别是对于极低分辨率的输入。

为了解决这个问题，本文引入了一个隐变量，作为SR子模块的输入，描述$I_{H}$的信息，处理$I_{L}$的模糊性: \[ \hat{I}_{H}=g_{S R}\left(I_{L}, E_{H}\left(I_{H}\right)\right) \] 其中，$E_{H}(\cdot)$为一个encoder，用于从$I_H$中提取特征。而SR模型$g_{SR}$不仅输入低分辨图像$I_L$中获取信息，也从encoder编码的$I_H$的特征中获取信息，从而做出更准确的超分。

然而，(2)式中，需要获得$I_H$的信息，这在超分中显然是不妥当的。所以我们需要只从$I_L$中去估计$E_{H}(\cdot)$。

因此，作者为$I_L$引入另一个encoder $E_L(\cdot)$。由于SR问题的ill-posed属性，一张LR图像对应多张HR图像，因此，确定性的encoder是不够的。这里作者把隐变量的空间建模成一个多变量的高斯分布，这样就能从分布中多次采样，从而提供一个如下的“一对多”的映射： \[ E_{L}(x)=\left[\mu_{x}, \sigma_{x}\right] \text { and } E_{H}(x)=\left[\mu_{x}, \sigma_{x}\right] \] 其中$x$代表HR或者LR图像，而$\mu_x$与$\sigma_x$分别是分布的期望和方差。

于是，作者的关键idea就是，让两个隐变量 $E_L(\cdot)$和 $E_H(\cdot)$的分布对应起来。换句话说，就是要使得从 $E_L(\cdot)$中取样和从 $E_H(\cdot)$是高度相似的。因此，作者使用$E_{H}(I_{H}) $和$ E_{L}(I_{L})$两个分布之间的KL散度来训练这两个encoder。

测试与训练过程描述如下

在训练过程中，超分网络$G(\cdot, \cdot)$的输入$(I_L, z)$，其中$z$是从HR图片的encoder对应的高斯分布$\mathcal{N}\left(E_{H}^{\mu}\left(I_{H}\right), E_{H}^{\sigma}\left(I_{H}\right)\right)$中取样（因为HR图像在训练过程中是可以得到的）。
而在测试过程中，超分网络$G(\cdot, \cdot)$的输入$(I_L, z)$，其中$z$是从LR图片的encoder对应的高斯分布$\mathcal{N}\left(E_{L}^{\mu}\left(I_{L}\right), E_{L}^{\sigma}\left(I_{L}\right)\right)$中取样。即，从一幅LR图片$I_L$获得多种HR图片$\left\{\hat{I}_{H}^{1}, \ldots, \hat{I}_{H}^{n}\right\}$的方法如下： \[ \hat{I}_{H}^{i}=G\left(I_{L}, z_{i}\right), \quad z_{i} \sim \mathcal{N}\left(E_{L}^{\mu}\left(I_{L}\right), E_{L}^{\sigma}\left(I_{L}\right)\right) \]

与条件变分自编码器(cVAEs)的关系

cVAE是用来估计一个条件分布$p_{\theta}(x \mid y)$的，其中$x$为数据，$y$为条件。给定条件$y$，则$z$从一个先验分布$p_\theta(z|y)$中取。而$x$是从分布$p_\theta(x|y,z)$中取的（感觉这里都用$\theta$是不是不太妥？）。而$x$的多样性$\left\{x_{i}\right\}$由多个隐变量$\left\{z_{i}\right\}$来产生。cVAE的evidence lower bound(ELBO)如下： \[ \begin{aligned} L_{C V A E}(x, y ; \theta, \phi) &=\mathbb{E}_{q_{\phi}(z \mid x, y)} \log p_{\theta}(x \mid y, z) \\ &-D_{K L}\left(q_{\phi}(z \mid x, y) \| p_{\theta}(z \mid y)\right) \leq \log p_{\theta}(x \mid y) \end{aligned} \] 上面的式子利用Jensen不等式很容易推出来，其中$q_{\phi}(z|x, y)$是对真实后验概率$p_\theta(z|y)$的估计（为啥前面又说是先验？）。根据变分推断的思想，最大化这个下界，即可最大化似然函数$\log {p_\theta(x|y)}$。

如果我们假设：高分辨图像包含了其对应的低分辨图像的所有信息。那么，我们能将VarSR模型翻译为一个cVAE的结构，$x$就是高分辨图像$I_H$，$y$为低分辨图像$I_L$，$p_\theta(z|y)$就是LR encoder$E_{L}\left(I_{L}\right)$，$q_{\phi}(z \mid x, y)$是HR encoder$E_{H}\left(I_{H}\right)$，$p_{\theta}(x|y, z)$为超分网络$G\left(I_{L}, z\right)$。而$\log p_{\theta}(x \mid y, z)$这项，其实就是使用像素级别的重构/感知等损失。作者表示，这种解释为VarSR模型提供了理论支持，也就是使观察数据的条件对数似然最大化。

目标函数

损失函数主要为三个：

像素级别的重构损失：用于鼓励HR编码器$E_H(\cdot)$提取高分辨率图像的信息特征 \[ \mathcal{L}_{\mathrm{pixel}}=\frac{1}{r^{2} H W} \sum_{x=1}^{r H} \sum_{y=1}^{r W}\left(I_{H}^{x, y}-G\left(I_{L}, z\right)^{x, y}\right)^{2}, z \sim \mathcal{N}\left(E_{H}^{\mu}\left(I_{H}\right), E_{H}^{\sigma}\left(I_{H}\right)\right) \]
KL散度：最小化LR图像与HR图像在隐变量空间的分布差距 \[ \mathcal{L}_{\mathrm{KL}}=D_{K L}\left(q\left(z \mid I_{H}\right) \| p\left(z \mid I_{L}\right)\right) \]
对抗损失：用于恢复更真实的纹理 \[ \mathcal{L}_{\mathrm{adv}}=\underset{\hat{I} \sim \mathbb{P}_{g}}{\mathbb{E}}[D(\hat{I})]-\underset{I \sim \mathbb{P}_{r}}{\mathbb{E}}[D(I)]+\delta \underset{\hat{I} \sim \mathbb{P}_{\hat{\jmath}}}{\mathbb{E}}\left[\left(\left\|\nabla_{\hat{I}} D(\hat{I})\right\|_{2}-1\right)^{2}\right] \]

总损失是三者的加权和： \[ \mathcal{L}=\lambda_{\text {pixel }} \mathcal{L}_{\text {pixel }}+\lambda_{\mathrm{KL}} \mathcal{L}_{\mathrm{KL}}+\lambda_{\mathrm{adv}} \mathcal{L}_{\mathrm{adv}} \]

实验

作者在两个数据集上做了实验，一个是人脸数据集，一个是数字数据集。选择的比较对象有：

PRSR：像素递归的超分辨方法（但是由于人脸数据集的像素为64x64，对于PRSR来说代价太大，因此PRSR没有在人脸数据集上面测。）
MR-GAN：使用了基于动量的损失来代替均方误差，从而降低在cGAN中的模式坍塌

此外，SRGAN作为deterministic SR technique（就是一张LR，只产生一张SR的技术）的baseline。对于数字数据集，由于数字数据集输入的低分辨率图像具有极低的维数，例如2×4像素，因此我们对整个方法使用带有跳跃连接的自动编码器。因此，后文中将deterministic SR technique表示为“Det”，而不是“SRGAN”。

数据集

人脸数据集采用CelebA。一共200k张，100k作为训练集，1k作为测试集。HR分辨率为64x64，LR分辨率为8x8。对于网络结构来说，为了公平期间，和MR-GAN中设置的一样，都是8个Res Block。
数字数据集用了两个：
- MNIST。60k张训练集，10k张测试集。HR分辨率为64x64，LR分辨率为8x8。
- LP。110k训练，7k测试。

评价指标

由于VarSR-Net不是用来生成确定性结果的。因此作者根据不同超分辨图像的平均值/最佳分数来进行评估。

传统的PSNR、SSIM、MSE
对于数字数据集，使用图像分类方法，来衡量语义上的可信性
对于人脸数据集，使用感知图像质量指标（具体使用了LPIPS分数、人脸验证网络FaceNet提取的特征间的距离）

此外，为了衡量生成的图像的多样性，我们使用了结果SR图像之间的平均LPIPS距离来衡量。

定性结果

另外，作者还尝试了其他High level的任务，如人脸属性编辑、属性迁移等，也取得了不错的效果：

定量结果

总结与思考

这篇文章主要是用了cVAE的思想来解决SR的ill-posed问题，但是讲故事很有水平，一开始先重点讲HR encoder和LR encoder，把读者代入这种latent space的思路后，话锋一转，引入与cVAE关系，一下子就引入了可解释性。
但是仔细看这篇文章的实验设计，还是能学到很多。相关的评价标准，以及baseline的选择都很巧妙。由于我的可逆网络毕设，也是解决SR的ill-posed问题，所以本文的实验设计很有参考价值。