GAN、Policy Gradient、Sequence Generation和SeqGAN

最近看了台湾大学李宏毅老师关于深度学习的系列教程(Machine Learning and Having It Deep and Structured),收获颇多。教程主要介绍了深度学习的基本知识,并且介绍了大量比较新的技术,例如Seq2Seq、Attention、Generative Model、Language Model等等。与以往其他“以公式为中心”的教程不同,这个教程从“定性”的角度介绍了这些技术,能让我们详细了解到这些技术存在的合理性。同时又有着详细的公式推导,并且将事实之间的逻辑关系梳理的非常清晰。 这篇文章将会以李宏毅老师的讲解为范本,详细介绍使用GAN进行序列生成的相关工作。 序列生成 在NLP领域中,序列生成是一个很常见的主题。所谓序列生成就是指通过某种输入(

再读WGAN

最近看了台湾大学李宏毅老师关于深度学习的系列教程(Machine Learning and Having It Deep and Structured),收获颇多。教程主要介绍了深度学习的基本知识,并且介绍了大量比较新的技术,例如Seq2Seq、Attention、Generative Model、Language Model等等。与以往其他“以公式为中心”的教程不同,这个教程从“定性”的角度介绍了这些技术,能让我们详细了解到这些技术存在的合理性。同时又有着详细的公式推导,并且将事实之间的逻辑关系梳理的非常清晰。 上一篇文章主要介绍了原生GAN的基本内容。而这篇文章将会主要介绍GAN的一个增强的变体:WGAN。 复习一下GAN 开讲之前首先我们复习一下GAN。 在应用中我们有一个需求:

再读GAN

最近看了台湾大学李宏毅老师关于深度学习的系列教程(Machine Learning and Having It Deep and Structured),收获颇多。教程主要介绍了深度学习的基本知识,并且介绍了大量比较新的技术,例如Seq2Seq、Attention、Generative Model、Language Model等等。与以往其他“以公式为中心”的教程不同,这个教程从“定性”的角度介绍了这些技术,能让我们详细了解到这些技术存在的合理性。同时又有着详细的公式推导,并且将事实之间的逻辑关系梳理的非常清晰。 接下来我准备写几篇博文,将教程中关于GAN部分的一些内容转换成文字记述下来。 下面大部分图片都是来源于李宏毅老师课程视频和演示文稿,如有侵权请联系我删减。 Auto Encoder

[读论文] Generative Adversarial Text to Image Synthesis

Generative Adversarial Text to Image Synthesis Scott Reed, Zeynep Akata, Xinchen Yan, Lajanugen Logeswaran, Bernt Schiele, Honglak Lee. [ICML2016] arXiv: 1605.05396[2016] Intro 前面的几篇文章介绍了几个GAN的变种,但是那些文章始终围绕着“生成高质量图像”这个topic。如何让模型按照我们“复杂的需求”生成图像呢?这就是这篇文章想要解决的问题。 这篇文章介绍了一种能够将人工编写一句描述性文本直接转换成为图像。

[读论文] Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks

Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks Emily Denton, Soumith Chintala, Arthur Szlam, Rob Fergus arXiv:1506.05751 [2015] Intro 之前的文章曾经介绍过生成式对抗网络(Generative Adversarial Networks, GANs)这个模型。然而在应用中我们会发现,用GAN生成的图片其实并不是很逼真。尤其是在高分辨率的情况下,

[读论文] Conditional Generative Adversarial Nets

Conditional Generative Adversarial Nets Mehdi Mirza, Simon Osindero arXiv:1411.1784 [2014] Intro 前面我们曾经介绍过生成式对抗网络(Generative Adversarial Nets, GANs)。这个框架包括一个生成器(Generator, G)和一个判别器(Discriminator, D)两个部分。生成器输入一段随机产生的噪声,生成一张尽可能“逼真”的图片。而判别器则输入一张图片,输出判断这张图片是生成出来的还是真实的。 原作者Goodfellow在最早提出的这篇文章的最后,介绍了几个这个模型可能改进的方向。