Google GAN之父 ICCV2017演讲：解读生成对抗网络的原理与应用

plokmju88 发布于2019-04-25 18:20 / 3521人阅读

摘要：但年在机器学习的较高级大会上，苹果团队的负责人宣布，公司已经允许自己的研发人员对外公布论文成果。苹果第一篇论文一经投放，便在年月日，斩获较佳论文。这项技术由的和开发，使用了生成对抗网络的机器学习方法。

GANs

「对抗生成网络之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演讲是聊他的代表作生成对抗网络（GAN/Generative Adversarial Networks），这几年，他每到大会就会讲 GAN，毕竟对抗生成网络之父的头衔在呢，这块也是这几年机器学习、计算机视觉等方向的研究热点之一。

Ian Goodfellow 是世界上最重要的 AI 研究者之一，他在 OpenAI（谷歌大脑的竞争对手，由 Elon Must 和 Sam Altman 创立）工作过不长的一段时间，今年3月重返 Google Brain，加入Google Brain，其正在建立了一个探索“生成模型”（generative models）的新研究团队。

生成模型的概念大家应该都很熟悉，大概有两种玩法：

密度（概率）估计：就是说在不了解事件概率分布的情况下，先假设随机分布，然后通过数据观测来确定真正的概率密度是怎样的。

样本生成：这个就更好理解了，就是手上有一把训练样本数据，通过训练后的模型来生成类似的「样本」。

在生成模型这一过程中，首先需要提到概率领域一个方法：较大似然估计，

现实生活中，我们可能并不知道每个 P（概率分布模型）到底是什么，我们已知的是我们可以观测到的源数据。所以，较大似然估计就是这种给定了观察数据以评估模型参数（也就是估计出分布模型应该是怎样的）的方法。

我们在理解生成对抗模型（GAN），首先要知道生成对抗模型拆开来是两个东西：一个是判别模型，一个是生成模型。就需要提及Ian Goodfellow在2014发表的文章。文章标题：Generative Adversarial Networks。文章链接：https://arxiv.org/abs/1406.2661。

具体如下：

简单打个比方就是：两个人比赛，看是 A 的矛厉害，还是 B 的盾厉害。比如，我们有一些真实数据，同时也有一把乱七八糟的假数据。A 拼命地把随手拿过来的假数据模仿成真实数据，并揉进真实数据里。B 则拼命地想把真实数据和假数据区分开。

这里，A 就是一个生成模型，类似于卖假货的，一个劲儿地学习如何骗过 B。而 B 则是一个判别模型，类似于警察叔叔，一个劲儿地学习如何分辨出 A 的骗人技巧。

如此这般，随着 B 的鉴别技巧的越来越牛，A 的骗人技巧也是越来越纯熟。

一个造假一流的 A，就是我们想要的生成模型！

我们现在能使用GANs做什么，这几年各种围绕关于GANs的研究应用很多很多。

学习训练数据的分布；

在更多的情况是，我们会面临缺乏数据的情况，我们可以通过生成模型来补足。比如，用在半监督学习中；

多标签预测（同时完成real/fake, 样本类别等的预测）；

根据环境需要生成相应数据（比如，看到一个美女的背影，猜她正面是否会让你失望……）

可以模拟预测未来数据（用于具有时序关系的图像）

解决模型推断问题

学习不错的embedding（特征表示）信息

以保密为文化传统的苹果一贯不喜欢对外公布自己的研究成果。但2016年在机器学习的较高级大会NIPS上，苹果AI团队的负责人RussSalakhutdinov宣布，公司已经允许自己的AI研发人员对外公布论文成果。这则消息刚刚宣布没多久，苹果就发表了自己的第一篇论文，题目叫做《通过对抗训练从模拟与无监督图像中学习》，论文描述了如何利用计算机生成的图像而不是真实图像改进算法识别图像能力的训练。此举一方面可以提高苹果在AI界的存在感，同时如果其研究成果出色的话，也能在学术界赢得同行认可，并吸引到AI方面的人才。苹果第一篇AI论文一经投放，便在2017年7月22日，斩获CVPR 2017较佳论文。

谷歌新论文使用生成对抗网络的无监督像素级域适应，发表在CVPR 2017

Unsupervised Pixel-Level Domain Adaptation WithGenerative Adversarial Networks

对于许多任务而言，收集标注良好的数据集去训练现代的机器学习算法是极其昂贵

的。渲染合成数据倒是一个吸引人的选择，本文的方法能以无监督的方式学习一个像素空间中从一个域到另一个域的变换。基于生成对抗网络（GAN）的方法能够使源域（source-domain）图像看起来就像是来自目标域（target domain）的一样。这个模型不仅能生成看似可信的样本，而且表现还极大超越了许多当前较佳的无监督域适应情况。

开始介绍面临缺乏数据的情况，我们可以通过生成模型来补足。

内容识别填充(: Content-aware fill ,是 photoshop 的一个功能)是一个强大的工具，设计师和摄影师可以用它来填充图片中不想要的部分或者缺失的部分。在填充图片的缺失或损坏的部分时，图像补全和修复是两种密切相关的技术。有很多方法可以实现内容识别填充，图像补全和修复。在这篇博客中，我会介绍 RaymondYeh 和 Chen Chen 等人的一篇论文，“基于感知和语境损失的图像语义修补（Semantic Image Inpainting with Perceptual and ContextualLosses）”。论文在2016年7月26号发布于 arXiv 上，介绍了如何使用 DCGAN 网络来进行图像补全。

体验一下半监督学习。

将产生式对抗网络（GAN）拓展到半监督学习，通过强制判别器来输出类别标签。我们在一个数据集上训练一个产生式模型 G 以及一个判别器 D，输入是N类当中的一个。在训练的时候，D被用于预测输入是属于 N+1的哪一个，这个+1是对应了G的输出。这种方法可以用于创造更加有效的分类器，并且可以比普通的GAN 产生更加高质量的样本。

文章标题：Semi-Supervised Learning with Generative Adversarial Networks；文章链接：https://arxiv.org/abs/1606.01583。

文章标题：Improved Techniques for Training GANs

文章链接：https://arxiv.org/abs/1606.03498

开始介绍多标签预测（同时完成real/fake, 样本类别等的预测）；

Next video frame prediction（未来帧预测）主要完成的任务是根据视频中已有帧的相关数据预测某一帧所对应的下一帧数据，例如图中所示的人物头像数据（文章主要利用大量未标注数据）。通过GAN对其之前数据规律的学习，合成其未发生的下一帧数据。这可以使我们通过海量数据的学习，达到预测未来未发生事件的效果。

图中所示3张人物头像数据，图1为原始图像，图2是通过传统图像合成方式所得图像，图3为通过GAN生成的图像。通过图2和图3的对比可以发现通过GAN合成的图像边缘模糊情况大大减轻，图像分辨率有所提高，纹理与原图也更接近。这是Lotter 等人在2016年提出了一种新颖的“PredNet”结构。文章标题：Deep Predictive CodingNetworks for Video Prediction and Unsupervised Learning。网址链接：https://arxiv.org/abs/1605.08104。

这个工作是Yann LeCun组的Michael Mathieu等人 2015年提出的，文章标题：Deep multi-scale videoprediction beyond mean square error。网址链接：https://arxiv.org/abs/1511.06434。

主要是用对抗式训练进行视频预测的，研究解决了一个非常重要的问题，那就是，当你训练一个神经网络（或者其他任何模型）来预测未来，如果要预测的东西有多种可能性时，一个网络以传统的方式进行预测（比如，用最小平方），将会预测出所有可能性的平均值。在视频的例子中，有很多模糊的混乱。对抗式训练能让系统产出其想要的任何东西，只要是在鉴别器喜欢的任何数据库内就可以，这解决了在不确定条件下进行预测的“模糊”难题。

下面介绍根据环境需要生成相应数据。

在自动生成任务中，在线时尚科技公司 Vue.ai 开发了一种或将取代模特的自动生成试装照片的系统，该系统使用GAN技术，可以控制所需模特照片的体型、肤色、身高、鞋子等等，不仅是模特，摄影师和工作室都可以不需要了，对于电商和零售业来说是好消息。这项技术由 Vue.ai 的 Anand Chandrasekaran 和 Costa Colbert 开发，使用了生成对抗网络（GAN）的机器学习方法。这个系统由两个AI组成：一个生成器（generative）和一个评论家（critic），生成器试图生成一张看起来很好的图像，而批评家则决定这张图像是否看起来足够好。

跳过两部分，直接讲如何得到数据的embedding（特征表示）信息。

在特征表示学习这块，Radford 等人在2015年提出了DCGAN，文章标题是：Unsupervised Representation Learning with DeepConvolutional Generative Adversarial Networks，网址链接：https://arxiv.org/abs/1511.06434。

这篇文章，主要是想从大量无标签数据集中学习可重复使用的特征表示。在计算机视觉的背景下，实际上，可以利用不限数量的无标签图像和视频来学习一个好的中间表示，这个表示可以用在大量有监督的学习任务上，例如图像分类。提出一种方法，可以建立好的图像表示，通过训练对抗生成网络（GAN），并且反复利用生产网络和辨别网络的一部分作为有监督任务的特征提取。熟悉卷积神经网络（CNN）的同学对此应该不会陌生，这其实就是一个反向的 CNN。

熟悉NLP 的同学可能发现了，这就很像 word2vec 里面的：king- man + woman = queen。做个向量/矩阵加减并不难，难的是把加减后得到的向量/矩阵还原成「图义」上代表的图片。在 NLP 中，word2vec 是把向量对应到有意义的词。在这里，DCGAN 是把矩阵对应到有意义的图片。即：戴墨镜的男人 - 不戴墨镜的男人 + 不戴墨镜的女人= 戴墨镜的女人

在样本生成这一过程，生成对抗网络实现这些需要多久？

Odena等人在2016年提出了Auxiliary Classifier GANs（AC-GANs），文章名字是：Conditional Image Synthesis with Auxiliary Classifier GANs。网址链接：https://arxiv.org/abs/1610.09585。

主要提出AC-GAN模型，在D又新加了分类器，在输出样本真假的同时输出类别，在D的输出部分添加一个辅助的分类器来提高条件GAN的性能。针对任务，提出这种新的Inception Accuracy的评价方法，并引入了MS-SSIM用于判断模型生成图片的多样性。

这是Github上的关于Gan方法的相关list，https://github.com/hindupuravinash/the-gan-zoo。

我们能看到每周都会有新的GAN论文出来，很难跟踪所有的文章，更不用说研究人员使用一些令人难以置信的创造性的方式来命名这些生成对抗性网络！由这个图，我们知道这两年特别是2017年相关GAN命名的文章增长很迅速。

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法，实际应用案例分享与讨论，分析工具，ETL工具，数据仓库，数据挖掘工具，报表系统等全方位知识

QQ群：81035754

云服务器 GPU云服务器回调的原理、实现与应用图像识别技术的原理与应用无线通信原理与应用人工智能原理与应用

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/4663.html

GAN之父Ian Goodfellow加盟苹果

摘要：据报道，生成对抗网络的创造者，前谷歌大脑著名科学家刚刚正式宣布加盟苹果。他将在苹果公司领导一个机器学习特殊项目组。在加盟苹果后会带来哪些新的技术突破或许我们很快就会看到了。据 CNBC 报道，生成对抗网络（GAN）的创造者，前谷歌大脑著名科学家 Ian Goodfellow 刚刚正式宣布加盟苹果。他将在苹果公司领导一个「机器学习特殊项目组」。虽然苹果此前已经缩小了自动驾驶汽车研究的规模，但...

everfly 2019-04-25 18:32 评论0 收藏0
吴恩达眼中的深度学习七雄

摘要：的研究兴趣涵盖大多数深度学习主题，特别是生成模型以及机器学习的安全和隐私。与以及教授一起造就了年始的深度学习复兴。目前他是仅存的几个仍然全身心投入在学术界的深度学习教授之一。 Andrej Karpathy特斯拉 AI 主管Andrej Karpathy 拥有斯坦福大学计算机视觉博士学位，读博期间师从现任 Google AI 首席科学家李飞飞，研究卷积神经网络在计算机视觉、自然语言处理上的应...

MingjunYang 2019-04-25 18:19 评论0 收藏0
这梦一般的街景，全是AI伪造的 | 把GAN秒成渣渣的paper+code

摘要：陈启峰认为，这种技术前途大好，最终可以用于创造真正模拟现实世界的游戏场景。小学时，陈启峰先后获得全国作文竞赛二等奖和奥数竞赛一等奖。年，岁的陈启峰发表论文，提出数据结构。『凡所有相，皆是虚妄』上面这张德国街道图片，乍一看像是行车记录仪拍的，又好像谷歌街景照片加了复古滤镜。实际上，这是一张合成图片。在谷歌地图上，根本找不到这样的街道。一个神经网络，根据自己在训练过程中见过的真实街道，生成了它...

Worktile 2019-04-25 18:16 评论0 收藏0
从Pix2Code到CycleGAN：2017年深度学习重大研究进展全解读

摘要：文本谷歌神经机器翻译去年，谷歌宣布上线的新模型，并详细介绍了所使用的网络架构循环神经网络。目前唇读的准确度已经超过了人类。在该技术的发展过程中，谷歌还给出了新的，它包含了大量的复杂案例。谷歌收集该数据集的目的是教神经网络画画。 1. 文本1.1 谷歌神经机器翻译去年，谷歌宣布上线 Google Translate 的新模型，并详细介绍了所使用的网络架构——循环神经网络（RNN）。关键结果：与...

kuangcaibao 2019-04-25 18:22 评论0 收藏0