700字范文 > 4.keras实现--生成式深度学习之用变分自编码器VAE生成图像(mnist数据集和名人头像数据集)...

4.keras实现--生成式深度学习之用变分自编码器VAE生成图像(mnist数据集和名人头像数据集)...

时间：2021-02-17 02:09:23

1.VAE和GAN

变分自编码器（VAE,variatinal autoencoder） VS 生成式对抗网络（GAN,generative adversarial network）

两者不仅适用于图像，还可以探索声音、音乐甚至文本的潜在空间；

VAE非常适合用于学习具有良好结构的潜在空间，其中特定方向表示数据中有意义的变化轴;

GAN生成的图像可能非常逼真，但它的潜在空间可能没有良好结构，也没有足够的连续型。

自编码，简单来说就是把输入数据进行一个压缩和解压缩的过程。原来有很多 Feature，压缩成几个来代表原来的数据，解压之后恢复成原来的维度，再和原数据进行比较。它是一种非监督算法，只需要输入数据，解压缩之后的结果与原数据本身进行比较。

在实践中，这种经典的自编码器不会得到特别有用或具有良好结构的潜在空间。它们也没有对数据做多少压缩。因此，它们已经基本上过时了（Keras 0.x版本还有AutoEncoder这个层，后来直接都删了）。但是，VAE向自编码器添加了一点统计魔法，迫使其学习连续的、高度结构化的潜在空间。这使得VAE已成为图像生成的强大工具。变分编码器和自动编码器的区别就在于，传统自动编码器的隐变量z的分布是不知道的，因此我们无法采样得到新的z，也就无法通过解码器得到新的x。下面我们来变分，我们现在不要从x中直接得到z，而是得到z的均值和方差，然后再迫使它逼近正态分布的均值和方差，则网络变成下面的样子：

然而上面这个网络最大的问题是，它是断开的。前半截是从数据集估计z的分布，后半截是从一个z的样本重构输入。最关键的采样这一步，恰好不是一个我们传统意义上的操作。这个网络没法求导，因为梯度传到f(z)以后没办法往前走了。为了使得整个网络得以训练，使用一种叫reparemerization的trick，使得网络对均值和方差可导，把网络连起来。这个trick的idea见下图：

实际上，这是将原来的单输入模型改为二输入模型了。因为服从标准正态分布，所以它乘以估计的方差加上估计的均值，效果跟上上图直接从高斯分布里抽样本结果是一样的。这样，梯度就可以通上图红线的方向回传，整个网络就变的可训练了。

VAE的工作原理:

（1）一个编码器模块将输入样本input_img转换为表示潜在空间中的两个参数z_mean和z_log_variance;

（2）我们假定潜在正态分布能够生成输入图像，并从这个分布中随机采样一个点：z=z_mean + exp(z_log_variance)*epsilon，其中epsilon是取值很小的随机张量；

（3）一个解码器模块将潜在空间的这个点映射回原始输入图像。

因为epsilon是随机的，所以这个过程可以确保，与input_img编码的潜在位置(即z-mean)靠近的每个点都能被解码为与input_img类似的图像，从而迫使潜在空间能够连续地有意义。潜在空间中任意两个相邻的点都会被解码为高度相似的图像。连续性以及潜在空间的低维度，将迫使潜在空间中的每个方向都表示数据中一个有意义的变化轴，这使得潜在空间具有非常良好的结构，因此非常适合通过概率向量来进行操作。

VAE的参数通过两个损失函数来进行训练:一个是重构损失(reconstruction loss)，它迫使解码后的样本匹配初始输入；另一个是正则化损失(regularization loss)，它有助于学习具有良好结构的潜在空间，并可以降低训练数据上的过拟合。

实现代码如下：

小结:用深度学习进行图像生成,就是通过对潜在空间进行学习来实现的，这个潜在空间能够捕捉到关于图像数据集的统计信息。通过对潜在空间中的点进行采样和编码，我们可以生成前所未见的图像。

网上的代码大部分都是关于mnist数据集的，直接load_dataset就完事了，我找到了名人头像的数据集celebrity_data,用这个数据集做vae更有趣一点。

参考文献：

【1】Keras示例程序解析（4）：变分编码器VAE

【2】变分自编码器（Variational Autoencoder, VAE）通俗教程

【3】变分自编码器VAE：一步到位的聚类方案

【4】如何使用变分自编码器VAE生成动漫人物形象

【5】vae 名人数据集的使用

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论