读论文：SRFlow：Learning the Super-Resolution Space with Normalizing Flow

论文背景

作者表示，SR问题本来就是一个ill-posed的问题，可是大多数工作忽略了这一点，只致力于去学一个单图像到单图像的映射。而作者利用了基于标准化流(Normalizing Flow)的方法，去学一个LR到HR分布的映射（学习与输入LR图像相对应的真实HR图像的分布，即可以看做是给定LR图像，HR的条件概率分布），同时还表明在去噪、复原的任务中也能发挥作用。

所谓标准化流(Normalizing Flow)的方法，是用来拟合一些复杂概率分布的。实际上就是学一个可逆神经网络\(f_{\theta}\)，使用它的逆过程\(f_{\theta}^{- 1}\)把一个简单的分布(比如高斯分布、均匀分布等)\(p_{\mathbf{z}}(\mathbf{z})\)变成\(\mathbf{y} = f_{\theta}^{- 1}(\mathbf{z})\)。

主要方法

SR中的条件标准化流

设\(\mathbf{x}\)是LR图像，\(\mathbf{y}\)是HR图像。本文要求确定LR图像下，HR图像的条件概率分布\(p_{\mathbf{y|x}}(\mathbf{y|x,\theta})\)。提供的训练数据是LR-HR图像对\(\{(\mathbf{x}_{i},\mathbf{y}_{i})\}_{i = 1}^{M}\)

根据标准化流的思想，要使用一个可逆神经网络\(f_{\theta}\)去拟合这个分布\(p_{\mathbf{y|x}}\)，\(f_{\theta}\)把一个HR-LR图像对映射到一个隐变量\(z\)上：\(\mathbf{z} = f_{\theta}(\mathbf{y;x})\)。而要求这个网络在任意\(\mathbf{x}\)的条件下，对于\(\mathbf{y}\)是可逆的，即\(\mathbf{y} = f_{\theta}^{- 1}(\mathbf{z;x})\)。使用概率论中的随机变量代换，可以得到以下式子：

\[ p_{\mathbf{y} \mid \mathbf{x}}(\mathbf{y} \mid \mathbf{x},\mathbf{\theta}) = p_{\mathbf{z}}\left( f_{\mathbf{\theta}}(\mathbf{y};\mathbf{x}) \right)\left| \det\frac{\partial f_{\mathbf{\theta}}}{\partial\mathbf{y}}(\mathbf{y};\mathbf{x}) \right| \] 也就是给定HR图像\(\mathbf{y}\)和LR图像\(\mathbf{x}\)，最大化这个\(p_{\mathbf{y} \mid \mathbf{x}}(\mathbf{y} \mid \mathbf{x},\mathbf{\theta})\)就可。写成负对数：

\[ \mathcal{L}(\mathbf{\theta};\mathbf{x},\mathbf{y}) = - \log p_{\mathbf{y} \mid \mathbf{x}}(\mathbf{y} \mid \mathbf{x},\mathbf{\theta}) = - \log p_{\mathbf{z}}\left( f_{\mathbf{\theta}}(\mathbf{y};\mathbf{x}) \right) - \log\left| \det\frac{\partial f_{\mathbf{\theta}}}{\partial\mathbf{y}}(\mathbf{y};\mathbf{x}) \right| \]

即可作为损失函数进行训练了。要想在拟合的分布中采样也很简单，就使用符合预定的分布的\(\mathbf{z}\)代入\(\mathbf{y} = f_{\mathbf{\theta}}^{- 1}(\mathbf{z};\mathbf{x})\)即可。

把以上(3)式的第二项改写成每一层可逆模块串接的形式：

\[ \mathcal{L}(\mathbf{\theta};\mathbf{x},\mathbf{y}) = - \log p_{\mathbf{z}}(\mathbf{z}) - \sum_{n = 0}^{N - 1}\log\left| \det\frac{\partial f_{\mathbf{\theta}}^{n}}{\partial\mathbf{h}^{n}}\left( \mathbf{h}^{n};g_{\mathbf{\theta}}(\mathbf{x}) \right) \right| \]

其中，\(\mathbf{h}^{n + 1} = f_{\mathbf{\theta}}^{n}\left( \mathbf{h}^{n};g_{\mathbf{\theta}}(\mathbf{x}) \right)\)，且\(\mathbf{h}^{0} = \mathbf{y}\)、\(\mathbf{h}^{N} = \mathbf{z}\)。这样，只需在每一层上计算特定的雅克比行列式，而不是全体一起计算。而且加入了一个CNN网络\(g_{\theta}\)来学习LR图像最适合作为条件的表示。

条件流层(Conditional Flow Layers)

条件仿射耦合(Conditional Affine Coupling)

\[ \mathbf{h}_{A}^{n + 1} = \mathbf{h}_{A}^{n},\quad\mathbf{h}_{B}^{n + 1} = \exp\left( f_{\mathbf{\theta},\mathbf{s}}^{n}\left( \mathbf{h}_{A}^{n};\mathbf{u} \right) \right) \cdot \mathbf{h}_{B}^{n} + f_{\mathbf{\theta},\mathbf{b}}^{n}\left( \mathbf{h}_{A}^{n};\mathbf{u} \right) \]

\(\mathbf{h}^{n} = \left( \mathbf{h}_{A}^{n},\mathbf{h}_{B}^{n} \right)\)是特征图，A和B是其通道上的分离。这样就能通过仿射变换实现可逆。同时，雅克比矩阵是一个三角阵，他的行列式的对数形式容易写成\(\sum_{\text{ijk}}^{}f_{\mathbf{\theta},s}^{n}\left( \mathbf{h}_{A}^{n};\mathbf{u} \right)_{\text{ijk}}\)

仿射注入(Affine Injector)

对于上一节的设计，要求\(f_{\mathbf{\theta}}^{n}\)是可逆的，而且可以处理雅克比行列式。于是作者做了以下设计，称之为仿射注入器(Affine Injector)：

\[ \mathbf{h}^{n + 1} = \exp\left( f_{\mathbf{\theta},s}^{n}(\mathbf{u}) \right) \cdot \mathbf{h}^{n} + f_{\mathbf{\theta},b}(\mathbf{u}) \]

其中\(\mathbf{u} = g_{\theta}(\mathbf{x})\)，易得其实可逆的：\(\mathbf{h}^{n} = \exp\left( - f_{\mathbf{\theta},s}^{n}(\mathbf{u}) \right) \cdot \left( \mathbf{h}^{n + 1} - f_{\mathbf{\theta},b}^{n}(\mathbf{u}) \right)\)

同时，雅克比矩阵是一个三角阵，他的行列式的对数形式容易写成\(\sum_{\text{ijk}}^{}f_{\mathbf{\theta},s}^{n}\left( \mathbf{h}_{A}^{n};\mathbf{u} \right)_{\text{ijk}}\)

网络结构

其他的应用

LR一致的Style Transfer

即把一张HR图像下采样成LR图像，进而控制隐变量\(\mathbf{z}\)转移成不同风格的HR图像

Latent Space Normalization

在上述的SR任务中，核心是：把任意符合给定要求（"要求"即LR图像）的HR图像映射到一个隐含空间(即z)，而为了匹配LR图像中那些"共有的低频特征"，这个z被"标准化"为某一分布。

作者提出，原始的\(\widetilde{\mathcal{Z}}\)可以被标准化为另外一个分布\(\widehat{\mathcal{Z}}\)：

\[ \widehat{z} = \frac{\widehat{\sigma}}{\widetilde{\sigma}}(\widetilde{z} - \widetilde{\mu}) + \widehat{\mu},\quad\forall\widetilde{z} \in \widetilde{\mathcal{Z}} \]

其中\(\widetilde{\sigma}\)与\(\widetilde{\mu}\)是原始分布的经验标准差和经验均值。进而通过逆过程实现图像风格的迁移\(\widehat{\mathbf{y}} = f_{\mathbf{\theta}}^{- 1}(\widehat{\mathbf{z}},\mathbf{x})\)

后面是这种标准化的两个具体应用。

Image Content Transfer

首先有一张待迁移的HR图片\(\mathbf{y}\)，我们把它下采样\(\mathbf{x} = d_{\downarrow}(\mathbf{y})\)。然后我们可以直接在\(\mathbf{y}\)上进行篡改（或许改的很拙劣），得到\(\widetilde{\mathbf{y}}\)。现在我们为了使\(\widetilde{\mathbf{y}}\)看起来不那么拙劣，我们首先把其对应的隐分布表示出来\(\widetilde{\mathbf{z}} = f_{\mathbf{\theta}}(\widetilde{\mathbf{y}};\mathbf{x})\)（注意，这里用到的"要求"是原始的\(\mathbf{y}\)的下采样版本），再使用上述的Latent Space Normalization，从而得到迁移后的图片

Image Restoration

一种使用SR实现图像复原的朴素思想是，利用一些下采样方法，把噪声图像中的噪声去除，再使用SR方法进行复原。但是在下采样的过程中丢失了很多细节。

而使用上述的思想就可以避免这种问题。可以把退化的图像、退化图像的下采样版本都放进\(f_{\theta}\)里：\(\widetilde{\mathbf{z}} = f_{\mathbf{\theta}}(\widetilde{\mathbf{y}};\mathbf{x})\)，然后对\(\widetilde{\mathbf{z}}\)进行标准化为\(\widehat{\mathbf{z}}\)，进而得到复原的图像\(\widehat{\mathbf{y}} = f_{\mathbf{\theta}}^{- 1}(\widehat{\mathbf{z}},\mathbf{x})\)。完整的复原过程描述为：\(\widehat{\mathbf{y}} = f_{\mathbf{\theta}}^{- 1}\left( \phi\left( f_{\mathbf{\theta}}\left( \widetilde{\mathbf{y}};d_{\downarrow}(\widetilde{\mathbf{y}}) \right) \right),d_{\downarrow}(\widetilde{\mathbf{y}}) \right)\).

直观来说，这个方法是把一个退化图像映射到了分布\(p_{\mathbf{y} \mid \mathbf{x}}(\mathbf{y} \mid \mathbf{x},\mathbf{\theta})\)中最接近的图片，因为这个分布训练的时候，是没有引入退化的，所以就能得到对应的"干净"的HR图片。

实验结果

总结与思考

这篇文章与以往大多数超分不一样，它产生的是一个HR图片的分布，而不是单张图片。让我第一次了解到了标准化流的思想，收获很大。

感觉这篇和那篇Invertible Image Rescaling有异曲同工的地方，都使用了一个可逆网络，都是把信息隐藏在一个隐变量中。不同的是，Invertible Image Rescaling是把图像缩小时的丢失的高频信息放在了z中；而本文所求得的"HR图片分布"中的不同样本却对应了同一种z分布，这反映了不同HR样本中的相同的低频内容，从某种意义上是把LR图像中的低频特征放在了z中。

我觉得这篇文章很惊艳的部分在于，利用隐变量的标准化，把这个超分框架推广到了图像风格迁移、图像复原上面。其中"寻找分布\(p_{\mathbf{y} \mid \mathbf{x}}(\mathbf{y} \mid \mathbf{x},\mathbf{\theta})\)中，与目标图像最接近的干净图片"的思想，也非常亮眼。