0%

指的是列向量

矩阵求导

矩阵求导在最大似然问题中经常出现。总的来说,矩阵求导有四种类型,可以用下列表格表示:

image-20210228112100880

一句话概括:分子的偏导符号根据\(\mathbf{Y}\)的形状展开,而分母的偏导符号根据\(\mathbf{X}\)的形状的转置展开。举例来说,\(\mathrm d \mathbf y / \mathrm{d} x\)是一个列向量,\(\mathrm{d} y / \mathrm{d} \mathbf{x}\)是一个行向量(假设\(\mathbf y\)\(\mathbf x\)都指的是列向量)。每个积分都可以这样“冗长地”通过标量的偏导来计算,但是本节展示如何来通过矩阵操作来计算矩阵求导。

阅读全文 »

经过上次旁听小组会,大致对神经表示的方法有所了解,这是那次组会上张江辉分享的神经表示+超分辨的论文,当时没有太听明白,这回拿出来仔细研读一下。

这篇论文主要利用了神经表示在3D重构中的作用,提出了一个局部隐式图像函数(Local Implicit Image function, LIIF),利用表示的连续性完成任意尺度的超分辨。

阅读全文 »

这是一篇超分领域的知识蒸馏工作,发表于ECCV 2020

论文背景

传统的CNN-based超分方法,一般需要大量的存储资源和计算资源,难以在移动设备以及一些没有神经处理单元和芯片外存储器的设备上运行。

也有很多工作是致力于减少神经网络的消耗的:

  • 比如在SISR中,使用递归层或者一些专门为SISR设计的网络结构。但是这些递归层或者专门设计的结构难以在硬件上实现。
  • 网络剪枝、参数量化也被用于网络压缩。其中网络剪枝去除了一些节点冗余连接,而参数量化则降低权重或激活函数的位精度。然而,网络剪枝使得存储访问不连续,而且数据的局部性也较弱,这大大降低了性能。而网络量化的性能本质上取决于全精度模型的性能。
  • 模型压缩的另一种方式是知识蒸馏(Knowledge distillation),即一个大型的模型(teacher网络)软化版本输出分布(即logit)或中间特征表示,由一个小网络(student网络),这在图像分类任务中已经表现出有效性。而广义蒸馏(teacher)更进一步允许teacher网络)在训练时利用额外的信息(优势特征),并用补充的知识辅助学生网络的训练过程
阅读全文 »

论文背景

对于图像超分辨问题,最简单的方法是基于邻像素的空间不变性的双线性插值、双三次插值等方法,但是这些方法忽视了图像内容的多样性,会造成过于模糊的纹理结构与细节。

为了处理图像中的不同的内容,稀疏字典学习(sparse dictionary learning)独立地处理每个像素(或者patch)。比如经典的这篇《Image super-resolution via sparse representation》,给LR和HR中的patch学习一对字典,而假设LR和HR图像共享同一个稀疏编码。在推理过程中,给定训练字典,在一个优化过程中求出稀疏编码,从而完成对HR的估计。然而,在训练过程中,(字典与编码的)联合优化的难度还是会影响恢复效果。比如《Raisr: Rapid and accurate image super resolution》这篇中,基于图像的局部梯度统计特征,对图像的patch进行聚类处理,对每一类使用一个滤波器。虽然简单,但这种硬选择(hard-selection)操作是不连续的且不可微的。它们只为变化的输入模式提供折衷的解决方案,而不是最优的解决方案。

而之后,各类深度学习的方法被提出来,但是挑战在于图像内容的无约束性质,当随机梯度存在很大变化时,训练可能是不稳定的。它会导致artifact。残差学习、注意力机制等策略可以缓解这些问题,但这些方法对计算资源要求很高。

与对原图像的直接估计不同,自适应滤波器(核)方法按照空间变化,对相邻像素进行分组。由此带来的好处有两点:

  1. 估计的像素始终处于环境的凸包内,为了避免视觉伪影的产生(?)
  2. 网络只需要评估相邻像素的相对重要性,而不需要预测绝对值,这加快了学习过程

本文作者提出了一种,对SISR问题进行线性约束的方法——LAPAR(linearly-assembled pixel-adaptive regression network,线性组合像素自适应回归网络)。核心思想是,对一个进行把LR进行Bicubic插值后的模糊图像,应用一个“像素自适应”的滤波器进行滤波。而滤波器来自于,轻量级的卷积神经网络,这个网络根据每个输入像素,确定预定义的滤波器基的线性组合系数。

阅读全文 »

简述

本文提出的方法要完成的任务是在超低分辨率下的超分辨,正视超分辨的ill-posed属性,从一张LR图像中恢复出多张可能的HR图像。这个方法被作者称为VarSR。

主要思路是:通过最小化在HR与LR的KL散度来连接LR图像与HR图像间的表示能力,从而把LR图像和HR图像同时encode到同一个隐变量特征空间。然后SR模块的输入是这个隐变量,生成一个与Ground-truth HR之间的像素/感知上的相似的SR结果。由于HR图像的多样性程度高于LR图像,因此HR图像的潜在变量要比LR图像密集得多。所以在推理过程中,从隐变量空间中多次取样,从而产生多种SR图像。整个过程如下图所示。

image-20201209171949200

阅读全文 »

论文背景

这里,作者照例总结了几个生成模型:

  • 自回归模型(Autoregressive models):简易,但并行化不够
  • 变分编码器(VAEs):对数据的对数似然的下界进行优化,相较于变分编码器,有并行化的优势,但优化起来比较困难
  • 基于流的生成模型(Flow-based generative models):在NICE中首次描述,在Real NVP中进行了扩展

基于流的生成模型有如下的优点:

  • 精确隐变量推理和对数似然评价
    • 在VAEs中,只能推断出数据点对应的隐变量的估计值。在可逆生成模型中,这可以在没有近似的情况下精确地实现。这不仅可以导致准确的推断,还可以优化数据的精确对数似然值,而不是数据的下界
  • 高效的推理与训练
    • 在自回归模型,如Pixel-CNN中,难以并行化。而基于流的生成模型解决了这个问题
  • 隐空间对下游任务有用
    • 在自回归模型中,隐层的边缘分布是未知的,这使得执行有效的数据操作更加困难。在GANs中,数据点通常不能直接表示在潜在空间中,因为GAN没有Encoder。
  • 内存节省
    • 正如RevNet论文(Gomez et al.,2017)中所解释的,可逆神经网络中计算梯度需要的记忆量是恒定的,而不是线性的。
阅读全文 »