资讯专栏INFORMATION COLUMN

王飞跃等:生成式对抗网络 GAN 的研究进展与展望

xiaokai / 3587人阅读

摘要:引用格式王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃生成对抗网络的研究与展望自动化学报,论文作者王坤峰,苟超,段艳杰,林懿伦,郑心湖,王飞跃摘要生成式对抗网络目前已经成为人工智能学界一个热门的研究方向。本文概括了的研究进展并进行展望。

3月27日的新智元 2017 年技术峰会上,王飞跃教授作为特邀嘉宾将参加本次峰会的 Panel 环节,就如何看待中国 AI学术界论文数量多,但大师级人物少的现状?人工智能被首次写入中国政府工作报告,但中国的AI开源生态还刚刚萌芽,在全球尚处边缘化地位,如何打造中国AI的主流生态等议题进行讨论。关于GAN 与平行智能的关系,你可以来现场问问他。

本文2017年3月发表在《自动化学报》(第43卷,第三期)。

引用格式 王坤峰 ,苟超 ,段艳杰 ,林懿伦 ,郑心湖,王飞跃 . 生成对抗网络GAN的研究与展望. 自动化学报, 2017,43(3): 321-332

DOI  10.16383/j.aas.2017.y000003

论文作者:王坤峰 ,苟超 ,段艳杰 ,林懿伦 ,郑心湖,王飞跃 

【摘要】 生成式对抗网络 GAN (Generative adversarial networks) 目前已经成为人工智能学界一个热门的研究方向。 GAN的基本思想源自博弈论的二人零和博弈, 由一个生成器和一个判别器构成, 通过对抗学习的方式来训练。目的是估测数据样本 的潜在分布并生成新的数据样本。在图像和视觉计算、语音和语言处理、信息安全、棋类比赛等领域, GAN 正在被广泛研究,具有巨大的应用前景。本文概括了 GAN 的研究进展, 并进行展望。在总结了 GAN 的背景、理论与实现模型、应用领域、优缺点及发展趋势之后, 本文还讨论了 GAN 与平行智能的关系, 认为 GAN 可以深化平行系统的虚实互动、交互一体的理念, 特别是计算实验的思想, 为 ACP (Artificial societies, computational experiments, and parallel execution) 理论提供了十分具体和丰富的算法支持。

关键词  生成式对抗网络,生成式模型,零和博弈,对抗学习,平行智能,ACP 方法

生成式对抗网络 GAN (Generative adversarial networks) 是 Goodfellow 等[1] 在 2014 年提出的一种生成式模型. GAN 在结构上受博弈论中的二人零和博弈 (即二人的利益之和为零, 一方的所得正是另一方的所失) 的启发, 系统由一个生成器和一个判别器构成。生成器捕捉真实数据样本的潜在分布, 并生成新的数据样本; 判别器是一个二分类器, 判别输入是真实数据还是生成的样本. 生成器和判别器均[2]可以采用目前研究火热的深度神经网络. GAN 的优化过程是一个极小极大博弈 (Minimax game) 问 题, 优化目标是达到纳什均衡[3] , 使生成器估测到数据样本的分布。

在当前的人工智能热潮下, GAN 的提出满足了 许多领域的研究和应用需求, 同时为这些领域注入了新的发展动力. GAN 已经成为人工智能学界一个热门的研究方向, 著名学者 LeCun 甚至将其称为“过去十年间机器学习领域最让人激动的点子”. 目前, 图像和视觉领域是对 GAN 研究和应用最广泛的一个领域, 已经可以生成数字、人脸等物体对象,构成各种逼真的室内外场景, 从分割图像恢复原图 像, 给黑白图像上色, 从物体轮廓恢复物体图像, 从 低分辨率图像生成高分辨率图像等[4]. 此外, GAN已经开始被应用到语音和语言处理[5−6]、电脑病毒 监测[7]、棋类比赛程序[8] 等问题的研究中。

本文综述了生成式对抗网络 GAN 的研究 进展, 并对发展趋势进行展望. 第 1 节介绍 GAN 的 提出背景. 第 2 节描述 GAN 的理论与实现模型, 包 括 GNN 的基本原理、学习方法、衍生模型等. 第 3节列举GAN在图像和视觉、语音和语言、信息安全 等领域的典型应用. 第4节对 GAN 进行思考与展 望, 讨论 GAN 与平行智能, 特别是与计算实验的关 系. 最后, 第 5 节对本文进行总结。

1. GAN 的提出背景

本节介绍 GAN 的提出背景, 以便读者更好地理解 GAN 的研究进展和应用领域.

1.1 人工智能的热潮

近年来, 随着计算能力的提高和各行业数据量 的剧增, 人工智能取得了快速发展, 使得研究者对人 工智能的关注度和社会大众对人工智能的憧憬空前提升[2,9]. 学术界普遍认为人工智能分为两个阶段:感知阶段和认知阶段. 在感知阶段, 机器能够接收来 自外界的各种信号, 例如视觉信号、听觉信号等, 并 对此作出判断, 对应的研究领域有图像识别、语音识别等. 在认知阶段, 机器能够对世界的本质有一定的 理解, 不再是单纯、机械地做出判断。基于多年的研 究经验, 本文作者认为人工智能的表现层次包括判 断、生成、理解和创造及应用, 如图 1 所示. 一方面,这些层次相互联系相互促进; 另一方面, 各个层次之间又有很大的鸿沟, 有待新的研究突破.

无论是普遍认为的人工智能两阶段还是本文作者总结的人工智能四个层次, 其中都涉及理解这个 环节. 然而, 理解无论对人类还是人工智能都是内 在的表现, 无法直接测量, 只能间接从其他方面推 测. 如何衡量人工智能的理解程度, 虽然没有定论但是著名学者 Feynman 有句名言 “What I cannot create, I do not understand. (不可造者, 未能知也.)” 这说明机器制造事物的能力从某种程度上取 决于机器对事物的理解. 而 GAN 作为典型的生成 式模型, 其生成器具有生成数据样本的能力. 这种 能力在一定程度上反映了它对事物的理解. 因此, GAN 有望加深人工智能的理解层面的研究.

1.2 生成式模型的积累

生成式模型不仅在人工智能领域占有重要地位,生成方法本身也具有很大的研究价值. 生成方法和 判别方法是机器学习中监督学习方法的两个分支.生成式模型是生成方法学习得到的模型. 生成方法 涉及对数据的分布假设和分布参数学习, 并能够根 据学习而来的模型采样出新的样本. 本文认为生成 式模型从研究出发点的角度可以分为两类: 人类理 解数据的角度和机器理解数据的角度.

从人类理解数据的角度出发, 典型的做法是先 对数据的显式变量或者隐含变量进行分布假设, 然 后利用真实数据对分布的参数或包含分布的模型进 行拟合或训练, 最后利用学习到的分布或模型生成 新的样本. 这类生成式模型涉及的主要方法有较大 似然估计法、近似法[10−11]、马尔科夫链方法[12−14]等. 从这个角度学习到的模型具有人类能够理解的 分布, 但是对机器学习来说具有不同的限制. 例如,以真实样本进行较大似然估计, 参数更新直接来自 于数据样本, 导致学习到的生成式模型受到限制. 而 采用近似法学习到的生成式模型由于目标函数难解 一般只能在学习过程中逼近目标函数的下界, 并不 是直接对目标函数的逼近. 马尔科夫链方法既可以 用于生成式模型的训练又可以用于新样本的生成,但是马尔科夫链的计算复杂度较高. 

从机器理解数据的角度出发, 建立的生成式模 型一般不直接估计或拟合分布, 而是从未明确假设 的分布中获取采样的数据[15], 通过这些数据对模型 进行修正. 这样得到的生成式模型对人类来说缺乏可解释性, 但是生成的样本却是人类可以理解的. 以 此推测, 机器以人类无法显式理解的方式理解了数 据并且生成了人类能够理解的新数据. 在 GAN 提 出之前, 这种从机器理解数据的角度建立的生成式 模型一般需要使用马尔科夫链进行模型训练, 效率 较低, 一定程度上限制了其系统应用.

GAN 提出之前, 生成式模型已经有一定研究积 累, 模型训练过程和生成数据过程中的局限无疑是 生成式模型的障碍. 要真正实现人工智能的四个层 次, 就需要设计新的生成式模型来突破已有的障碍. 

1.3 神经网络的深化

过去 10 年来, 随着深度学习[16−17] 技术在各个 领域取得巨大成功, 神经网络研究再度崛起. 神经网 络作为深度学习的模型结构, 得益于计算能力的提 升和数据量的增大, 一定程度上解决了自身参数多、 训练难的问题, 被广泛应用于解决各类问题中. 例 如, 深度学习技术在图像分类问题上取得了突破性 的效果[18−19], 显著提高了语音识别的准确率[20], 又 被成功应用于自然语言理解领域[21] . 神经网络取得 的成功和模型自身的特点是密不可分的. 在训练方 面, 神经网络能够采用通用的反向传播算法, 训练过 程容易实现; 在结构方面, 神经网络的结构设计自由 灵活, 局限性小; 在建模能力方面, 神经网络理论上 能够逼近任意函数, 应用范围广. 另外, 计算能力的 提升使得神经网络能够更快地训练更多的参数, 进 一步推动了神经网络的流行. 

1.4 对抗思想的成功

从机器学习到人工智能, 对抗思想被成功引入 若干领域并发挥作用. 博弈、竞争中均包含着对抗 的思想. 博弈机器学习[22] 将博弈论的思想与机器学 习结合, 对人的动态策略以博弈论的方法进行建模,优化广告竞价机制, 并在实验中证明了该方法的有 效性. 围棋程序 AlphaGo[23] 战胜人类选手引起大众对人工智能的兴趣, 而 AlphaGo 的中级版本在训 练策略网络的过程中就采取了两个网络左右互博的方式,获得棋局状态、策略和对应回报,并以包含博 弈回报的期望函数作为较大化目标. 在神经网络的研究中, 曾有研究者利用两个神经网络互相竞争的 方式对网络进行训练[24] , 鼓励网络的隐层节点之间 在统计上独立, 将此作为训练过程中的正则因素. 还 有研究者[25−26] 采用对抗思想来训练领域适应的神 经网络: 特征生成器将源领域数据和目标领域数据 变换为高层抽象特征, 尽可能使特征的产生领域难 以判别; 领域判别器基于变换后的特征, 尽可能准确 地判别特征的领域. 对抗样本[27−28] 也包含着对抗 的思想, 指的是那些和真实样本差别甚微却被误分 类的样本或者差异很大却被以很高置信度分为某一真实类的样本, 反映了神经网络的一种诡异行为特 性. 对抗样本和对抗网络虽然都包含着对抗的思想,但是目的完全不同. 对抗思想应用于机器学习或人 工智能取得的诸多成果, 也激发了更多的研究者对GAN 的不断挖掘。

2. GAN的理论与实现模型

2.1 GAN 的理论与实现模型GAN 的基本原理

GAN 的核心思想来源于博弈论的纳什均衡. 它 设定参与游戏双方分别为一个生成器 (Generator)和一个判别器 (Discriminator), 生成器的目的是尽 量去学习真实的数据分布, 而判别器的目的是尽量 正确判别输入数据是来自真实数据还是来自生成器;为了取得游戏胜利, 这两个游戏参与者需要不断优 化, 各自提高自己的生成能力和判别能力, 这个学习 优化过程就是寻找二者之间的一个纳什均衡. GAN的计算流程与结构如图 2 所示. 任意可微分的函 数都可以用来表示 GAN 的生成器和判别器, 由此,我们用可微分函数 D 和 G 来分别表示判别器和生 成器, 它们的输入分别为真实数据 x 和随机变量 z.G(z) 则为由 G 生成的尽量服从真实数据分布 pdata的样本. 如果判别器的输入来自真实数据, 标注为 1.如果输入样本为 G(z), 标注为 0. 这里 D 的目标是 实现对数据来源的二分类判别: 真 (来源于真实数据x 的分布) 或者伪 (来源于生成器的伪数据 G(z)),而 G 的目标是使自己生成的伪数据 G(z) 在 D 上 的表现D(G(z))和真实数据x在D上的表现D(x)一致, 这两个相互对抗并迭代优化的过程使得 D 和 G 的性能不断提升, 当最终 D 的判别能力提升到一 定程度, 并且无法正确判别数据来源时, 可以认为这 个生成器 G 已经学到了真实数据的分布.

2.2 GAN 的学习方法

本节中我们讨论 GAN 的学习训练机制。

首先,在给定生成器 G 的情况下, 我们考虑最 优化判别器 D. 和一般基于 Sigmoid 的二分类模型 训练一样, 训练判别器 D 也是最小化交叉熵的过程,其损失函数为:

其中, x 采样于真实数据分布 pdata(x), z 采样于先 验分布 pz (z) (例如高斯噪声分布), E(·) 表示计算期 望值. 这里实际训练时和常规二值分类模型不同, 判 别器的训练数据集来源于真实数据集分布 pdata(x) (标注为 1) 和生成器的数据分布 pg (x) (标注为 0)两部分. 给定生成器 G, 我们需要最小化式 (1) 来得 到最优解, 在连续空间上, 式 (1) 可以写为如下形式: 

对任意的非零实数 m 和 n, 且实数值 y ∈ [0, 1] ,表达式 

处得到最小值。因此, 给定生成器 G 的情 况下, 目标函数 (2) 在 

处得到最小值, 此即为判别器的最优解. 由式 (4) 可 知, GAN 估计的是两个概率分布密度的比值, 这也 是和其他基于下界优化或者马尔科夫链方法的关键 不同之处。

另一方面, D(x) 代表的是 x 来源于真实数据 而非生成数据的概率. 当输入数据采样自真实数据x 时, D 的目标是使得输出概率值 D(x) 趋近于 1, 而当输入来自生成数据 G(z) 时, D 的目标是正确 判断数据来源, 使得 D(G(z)) 趋近于 0, 同时 G 的 目标是使得其趋近于 1. 这实际上就是一个关于G 和 D 的零和游戏, 那么生成器 G 的损失函数为ObjG(θG) = −ObjD(θD, θG). 所以 GAN 的优化问 题是一个极小—极大化问题, GAN 的目标函数可 以描述如下: 

总之, 对于 GAN 的学习过程, 我们需要训练模 型 D 来较大化判别数据来源于真实数据或者伪数 据分布 G(z) 的准确率, 同时, 我们需要训练模型 G来最小化 log(1 − D(G(z))). 这里可以采用交替优 化的方法: 先固定生成器 G, 优化判别器 D, 使得D 的判别准确率较大化; 然后固定判别器 D, 优化 生成器 G, 使得 D 的判别准确率最小化. 当且仅当pdata = pg 时达到全局最优解. 训练 GAN 时, 同一 轮参数更新中, 一般对 D 的参数更新 k 次再对 G的参数更新 1 次。

2.3 GAN 的衍生模型

自 Goodfellow 等[1] 于 2014 年提出 GAN 以来,各种基于 GAN 的衍生模型被提出, 这些模型的创 新点包括模型结构改进、理论扩展及应用等. 部分 衍生模型的计算流程与结构如图 3 所示。

GAN 在基于梯度下降训练时存在梯度消失的 问题, 因为当真实样本和生成样本之间具有极小重 叠甚至没有重叠时, 其目标函数的 Jensen-Shannon散度是一个常数, 导致优化目标不连续. 为了解决 训练梯度消失问题, Arjovsky 等[29] 提出了 Wasser- stein GAN (W-GAN). W-GAN 用 Earth-Mover 代 替 Jensen-Shannon 散度来度量真实样本和生成样 本分布之间的距离, 用一个批评函数 f 来对应 GAN的判别器, 而且批评函数 f 需要建立在 Lipschitz 连 续性假设上. 另外, GAN 的判别器 D 具有无限的 建模能力, 无论真实样本和生成的样本有多复杂, 判 别器 D 都能把它们区分开, 这容易导致过拟合问题。

为了限制模型的建模能力, Qi[30] 提出了 Loss- sensitive GAN (LS-GAN), 将最小化目标函数得到 的损失函数限定在满足 Lipschitz 连续性函数类上,作者还给出了梯度消失时的定量分析结果. 需要指 出, W-GAN 和 LS-GAN 并没有改变 GAN 模型的 结构, 只是在优化方法上进行了改进。GAN 的训练只需要数据源的标注信息 (真或 伪), 并根据判别器输出来优化. Odena[31] 提出了 Semi-GAN, 将真实数据的标注信息加入判别器 D的训练. 更进一步, Conditional GAN (CGAN)[32]提出加入额外的信息 y 到 G、D 和真实数据来建模,这里的 y 可以是标签或其他辅助信息. 传统 GAN都是学习一个生成式模型来把隐变量分布映射到复杂真实数据分布上, Donahue 等[33] 提出一种 Bidi- rectional GANs (BiGANs) 来实现将复杂数据映射 到隐变量空间, 从而实现特征学习. 除了 GAN 的基 本框架, BiGANs 额外加入了一个解码器 Q 用于将 真实数据 x 映射到隐变量空间, 其优化问题转换为.

InfoGAN[34] 是 GAN 的另一个重要扩展. GAN能够学得有效的语义特征, 但是输入噪声变量 z 的 特定变量维数和特定语义之间的关系不明确, 而 In- foGAN 能够获取输入的隐层变量和具体语义之间 的互信息. 具体实现就是把生成器 G 的输入分为 两部分z 和c, 这里z 和GAN 的输入一致, 而c被称为隐码, 这个隐码用于表征结构化隐层随机变 量和具体特定语义之间的隐含关系. GAN 设定了pG(x) = pG(x|c), 而实际上 c 与 G 的输出具有较强 的相关性. 用 G(z, c) 来表示生成器的输出, 作者[34]提出利用互信息 I(c; G(z, c)) 来表征两个数据的相 关程度, 用目标函数 

来建模求解, 这里由于后验概率 p(c|x) 不能直接获 取, 需要引入变分分布来近似后验的下界来求得最优解。

Odena 等[35] 提出的 Auxiliary Classifier GAN (AC-GAN) 可以实现多分类问题, 它的判别器输出 相应的标签概率. 在实际训练中, 目标函数则包含真 实数据来源的似然和正确分类标签的似然, 不再单 独由判别器二分类损失来反传调节参数, 可以进一 步调节损失函数使得分类正确率更高, AC-GAN 的 关键是可以利用输入生成器的标注信息来生成对应 的图像标签, 同时还可以在判别器扩展调节损失函 数, 从而进一步提高对抗网络的生成和判别能力.

考虑到 GAN 的输出为连续实数分布而无法产 生离散空间的分布, Yu 等[6] 提出了一种能够生成离 散序列的生成式模型 Seq-GAN. 他们用 RNN 实现 生成器G, 用CNN 实现判别器D, 用D 的输出判 别概率通过增强学习来更新 G. 增强学习中的奖励 通过 D 来计算, 对于后面可能的行为采用了蒙特卡 洛搜索实现, 计算 D 的输出平均作为奖励值反馈. 

3. GAN 的应用领域

作为一个具有 “无限” 生成能力的模型, GAN的直接应用就是建模, 生成与真实数据分布一致的 数据样本, 例如可以生成图像、视频等. GAN 可以 用于解决标注数据不足时的学习问题, 例如无监督 学习、半监督学习等. GAN 还可以用于语音和语言 处理, 例如生成对话、由文本生成图像等. 本节从图 像和视觉、语音和语言、其他领域三个方面来阐述GAN 的应用. 

3.1 图像和视觉领域

GAN 能够生成与真实数据分布一致的图像. 一 个典型应用来自 Twitter 公司, Ledig 等[36] 提出利 用 GAN 来将一个低清模糊图像变换为具有丰富细 节的高清图像. 作者用 VGG 网络[37] 作为判别器,用参数化的残差网络[19] 表示生成器, 实验结果如图4 所示, 可以看到 GAN 生成了细节丰富的图像. 

GAN 也开始用于生成自动驾驶场景. Santana等[38] 提出利用 GAN 来生成与实际交通场景分布一 致的图像, 再训练一个基于 RNN 的转移模型实现预 测的目的, 实验结果如图 5 所示. GAN 可以用于自 动驾驶中的半监督学习或无监督学习任务, 还可以 利用实际场景不断更新的视频帧来实时优化 GAN的生成器.

Gou 等[39−40] 提出利用仿真图像和真实图像作 为训练样本来实现人眼检测, 但是这种仿真图像与 真实图像存在一定的分布差距. Shrivastava等[41]提出一种基于 GAN 的方法 (称为 SimGAN), 利用 无标签真实图像来丰富细化仿真图像, 使得合成图 像更加真实. 作者引入一个自正则化项来实现最小 化合成误差并较大程度保留仿真图像的类别, 同时 利用加入的局部对抗损失函数来对每个局部图像块 进行判别, 使得局部信息更加丰富. 

3.2 语音和语言领域

目前已经有一些关于 GAN 的语音和语言处理 文章. Li 等[5] 提出用 GAN 来表征对话之间的隐式 关联性, 从而生成对话文本. Zhang 等[42] 提出基于GAN 的文本生成, 他们用 CNN 作为判别器, 判别 器基于拟合 LSTM 的输出, 用矩匹配来解决优化问 题; 在训练时, 和传统更新多次判别器参数再更新一 次生成器不同, 需要多次更新生成器再更新 CNN 判别器.基于策略梯度来训练生成器G, 策略梯度的反馈奖励信号来自于生成器经过蒙特卡 洛搜索得到, 实验表明 SeqGAN 在语音、诗词和音 乐生成方面可以超过传统方法. Reed 等[43] 提出用GAN 基于文本描述来生成图像, 文本编码被作为生 成器的条件输入, 同时为了利用文本编码信息, 也将 其作为判别器特定层的额外信息输入来改进判别器,判别是否满足文本描述的准确率, 实验结果表明生 成图像和文本描述具有较高相关性. 

3.3 其他领域

除了将 GAN 应用于图像和视觉、语音和语言 等领域, GAN 还可以与强化学习相结合, 例如前述 的 SeqGAN[6]. 还有研究者将 GAN 和模仿学习融 合[44−45] 、将 GAN 和 Actor-critic 方法结合[46] 等. Hu 等[7] 提出 MalGAN 帮助检测恶意代码, 用 GAN生成具有对抗性的病毒代码样本, 实验结果表明基 于 GAN 的方法可以比传统基于黑盒检测模型的方 法性能更好. Childambaram 等[8] 基于风格转换提 出了一个扩展 GAN 的生成器, 用判别器来正则化 生成器而不是用一个损失函数, 用国际象棋实验示例证明了所提方法的有效性. 

4. GAN 的思考与展望

4.1 GAN 的思考与展望GAN 的意义和优点 

GAN 对于生成式模型的发展具有重要的意义. GAN 作为一种生成式方法, 有效解决了可建立自然 性解释的数据的生成难题. 尤其对于生成高维数据,所采用的神经网络结构不限制生成维度, 大大拓宽 了生成数据样本的范围. 所采用的神经网络结构能 够整合各类损失函数, 增加了设计的自由度. GAN的训练过程创新性地将两个神经网络的对抗作为训 练准则并且可以使用反向传播进行训练, 训练过程 不需要效率较低的马尔科夫链方法, 也不需要做各 种近似推理, 没有复杂的变分下界, 大大改善了生成 式模型的训练难度和训练效率. GAN 的生成过程不 需要繁琐的采样序列, 可以直接进行新样本的采样 和推断, 提高了新样本的生成效率. 对抗训练方法摒 弃了直接对真实数据的复制或平均, 增加了生成样 本的多样性. GAN 在生成样本的实践中, 生成的样 本易于人类理解. 例如, 能够生成十分锐利清晰的图像, 为创造性地生成对人类有意义的数据提供了可 能的解决方法.

GAN 除了对生成式模型的贡献, 对于半监督学 习也有启发. GAN 学习过程中不需要数据标签. 虽 然 GAN 提出的目的不是半监督学习, 但是 GAN 的 训练过程可以用来实施半监督学习中无标签数据对 模型的预训练过程. 具体来说, 先利用无标签数据训 练 GAN, 基于训练好的 GAN 对数据的理解, 再利 用小部分有标签数据训练判别器, 用于传统的分类 和回归任务. 

4.2 GAN 的缺陷和发展趋势

GAN 虽然解决了生成式模型的一些问题, 并且 对其他方法的发展具有一定的启发意义, 但是 GAN并不完美, 它在解决已有问题的同时也引入了一些 新的问题. GAN 最突出的优点同时也是它较大的 问题根源. GAN 采用对抗学习的准则, 理论上还 不能判断模型的收敛性和均衡点的存在性. 训练过 程需要保证两个对抗网络的平衡和同步, 否则难以 得到很好的训练效果. 而实际过程中两个对抗网络 的同步不易把控, 训练过程可能不稳定. 另外, 作 为以神经网络为基础的生成式模型, GAN 存在神 经网络类模型的一般性缺陷, 即可解释性差. 另外, GAN 生成的样本虽然具有多样性, 但是存在崩溃模 式 (Collapse mode) 现象[4], 可能生成多样的, 但对于人类来说差异不大的样本.

虽然 GAN 存在这些问题, 但不可否认的是, GAN 的研究进展表明它具有广阔的发展前景. 例 如, Wasserstein GAN[29] 彻底解决了训练不稳定问 题, 同时基本解决了崩溃模式现象. 如何彻底解决崩 溃模式并继续优化训练过程是 GAN 的一个研究方 向. 另外, 关于 GAN 收敛性和均衡点存在性的理论 推断也是未来的一个重要研究课题. 以上研究方向 是为了更好地解决 GAN 存在的缺陷. 从发展应用GAN 的角度, 如何根据简单随机的输入, 生成多样 的、能够与人类交互的数据, 是近期的一个应用发展 方向. 从 GAN 与其他方法交叉融合的角度, 如何将GAN 与特征学习、模仿学习、强化学习等技术更好 地融合, 开发新的人工智能应用或者促进这些方法 的发展, 是很有意义的发展方向. 从长远来看, 如何 利用 GAN 推动人工智能的发展与应用, 提升人工 智能理解世界的能力, 甚至激发人工智能的创造力 是值得研究者思考的问题. 

4.3 GAN 与平行智能的关系

王飞跃研究员[47−48] 于 2004 年提出了复杂系 统建模与调控的 ACP (Artificial societies, compu- tational experiments, and parallel execution) 理论 和平行系统方法. 平行系统强调虚实互动, 构建人工 系统来描述实际系统, 利用计算实验来学习和评估 各种计算模型, 通过平行执行来提升实际系统的性 能, 使得人工系统和实际系统共同推进[49−50]. ACP理论和平行系统方法目前已经发展为更广义的平行 智能理论[51]. GAN 训练中真实的数据样本和生成 的数据样本通过对抗网络互动, 并且训练好的生成 器能够生成比真实样本更多的虚拟样本. GAN 可以 深化平行系统的虚实互动、交互一体的理念. GAN作为一种有效的生成式模型, 可以融入到平行智能 研究体系. 本节从以下几个方面讨论 GAN 与平行 智能的关系. 

4.3.1 GAN 与平行视觉

平行视觉[52] 是 ACP 理论在视觉计算领域的推 广, 其基本框架与体系结构如图 6 所示. 平行视觉结 合计算机图形学、虚拟现实、机器学习、知识自动化 等技术, 利用人工场景、计算实验、平行执行等理论 和方法, 建立复杂环境下视觉感知与理解的理论和 方法体系. 平行视觉利用人工场景来模拟和表示复 杂挑战的实际场景, 使采集和标注大规模多样性数 据集成为可能, 通过计算实验进行视觉算法的设计 与评估, 最后借助平行执行来在线优化视觉系统. 其 中产生虚拟的人工场景便可以采用 GAN 实现, 如 图 5 所示. GAN 能够生成大规模多样性的图像数 据集, 与真实数据集结合起来训练视觉模型, 有助于 提高视觉模型的泛化能力. 

4.3.2 GAN与平行控制

平行控制[53−55] 是一种反馈控制, 是 ACP 理论 在复杂系统控制领域的具体应用, 其结构如图 7 所 示. 平行控制核心是利用人工系统进行建模和表示,通过计算实验进行分析和评估, 最后以平行执行实 现对复杂系统的控制. 除了人工系统的生成和计算 实验的分析, 平行控制中的人工系统和实际系统平 行执行的过程也利用 GAN 进行模拟, 一方面可以 进行人工系统的预测学习和实际系统的反馈学习,另一方面可以进行控制单元的模拟学习和强化学习.

4.3.3 GAN 与平行学习 

平行学习[56] 是一种新的机器学习理论框架, 是ACP 理论在学习领域的体现, 其理论框架如图 8 所 示. 平行学习理论框架强调: 使用预测学习解决如何 随时间发展对数据进行探索; 使用集成学习解决如 何在空间分布上对数据进行探索; 使用指示学习解决如何探索数据生成的方向. 平行学习作为机器学 习的一个新型理论框架, 与平行视觉和平行控制关 系密切. GAN 在大数据生成、基于计算实验的预测 学习等方面都可以和平行学习结合发展. 

结论

本文综述了生成式对抗网络 GAN 的研究进展. GAN 提出后, 立刻受到了人工智能研究者的重视. GAN 的基本思想源自博弈论的二人零和博弈, 由一个生成器和一个判别器构成, 通过对抗学习的方式 来迭代训练, 逼近纳什均衡. GAN 作为一种生成式 模型, 不直接估计数据样本的分布, 而是通过模型学 习来估测其潜在分布并生成同分布的新样本. 这种 从潜在分布生成 “无限” 新样本的能力, 在图像和视 觉计算、语音和语言处理、信息安全等领域具有重 大的应用价值. 

本文还展望了 GAN 的发展趋势, 重点讨论了GAN 与平行智能的关系, 认为 GAN 可以深化平行系统的虚实互动、交互一体的理念, 为 ACP 理论提 供具体和丰富的算法支持. 在平行视觉、平行控制、 平行学习等若干平行系统中, GAN 可以通过生成与 真实数据同分布的数据样本, 来支持平行系统的理 论和应用研究. 因此, GAN 作为一种有效的生成式 模型, 可以融入到平行智能的研究体系.

Reference 详见论文

作者介绍 

欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/4486.html

相关文章

  • 一个GAN生成ImageNet全部1000类物体

    摘要:作者在论文中将这种新的谱归一化方法与其他归一化技术,比如权重归一化,权重削减等,和梯度惩罚等,做了比较,并通过实验表明,在没有批量归一化权重衰减和判别器特征匹配的情况下,谱归一化改善生成的图像质量,效果比权重归一化和梯度惩罚更好。 就在几小时前,生成对抗网络(GAN)的发明人Ian Goodfellow在Twitter上发文,激动地推荐了一篇论文:Goodfellow表示,虽然GAN十分擅长...

    huaixiaoz 评论0 收藏0
  • GAN动物园——GAN各种变体列表

    摘要:生成对抗网络的各种变体非常多,的发明者在上推荐了这份名为的各种变体列表,这也表明现在确实非常火,被应用于各种各样的任务。了解这些各种各样的,或许能对你创造自己的有所启发。这篇文章列举了目前出现的各种变体,并将长期更新。 生成对抗网络(GAN)的各种变体非常多,GAN 的发明者 Ian Goodfellow 在Twitter上推荐了这份名为The GAN Zoo的各种GAN变体列表,这也表明现...

    tianyu 评论0 收藏0
  • 为什么让GAN一家独大?Facebook提出非对抗生成方法GLANN

    摘要:的两位研究者近日融合了两种非对抗方法的优势,并提出了一种名为的新方法。的缺陷让研究者开始探索用非对抗式方案来训练生成模型,和就是两种这类方法。不幸的是,目前仍然在图像生成方面显著优于这些替代方法。 生成对抗网络(GAN)在图像生成方面已经得到了广泛的应用,目前基本上是 GAN 一家独大,其它如 VAE 和流模型等在应用上都有一些差距。尽管 wasserstein 距离极大地提升了 GAN 的...

    iOS122 评论0 收藏0
  • 到底什么是生成对抗网络GAN

    摘要:很多人可能会问这个故事和生成式对抗网络有什么关系其实,只要你能理解这段故事,就可以了解生成式对抗网络的工作原理。 男:哎,你看我给你拍的好不好?女:这是什么鬼,你不能学学XXX的构图吗?男:哦……男:这次你看我拍的行不行?女:你看看你的后期,再看看YYY的后期吧,呵呵男:哦……男:这次好点了吧?女:呵呵,我看你这辈子是学不会摄影了……男:这次呢?女:嗯,我拿去当头像了上面这段对话讲述了一位男...

    GitCafe 评论0 收藏0
  • Google GAN之父 ICCV2017演讲:解读生成对抗网络原理应用

    摘要:但年在机器学习的较高级大会上,苹果团队的负责人宣布,公司已经允许自己的研发人员对外公布论文成果。苹果第一篇论文一经投放,便在年月日,斩获较佳论文。这项技术由的和开发,使用了生成对抗网络的机器学习方法。 GANs「对抗生成网络之父」Ian Goodfellow 在 ICCV 2017 上的 tutorial 演讲是聊他的代表作生成对抗网络(GAN/Generative Adversarial ...

    plokmju88 评论0 收藏0

发表评论

0条评论

阅读需要支付1元查看
<