深度生成模型综述

引用本文
胡铭菲, 左信, 刘建伟. 深度生成模型综述. 自动化学报,
2022,
Hu Ming-Fei, Zuo Xin, Liu Jian-Wei.
Survey on deep generative model. Acta Automatica Sinica,
2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190866?viewType=HTML
文章简介
关键词
深度生成式模型, 受限玻尔兹曼机, 变分自编码器, 流模型, 生成对抗网络, 自回归分布估计
摘
通过学习可观测数据的概率密度而随机生成样本的生成模型在近年来受到人们的广泛关注, 网络结构中包含多个隐藏层的深度生成式模型以更出色的生成能力成为研究热点, 深度生成模型在计算机视觉、密度估计、自然语言和语音识别、半监督学习等领域得到成功应用, 并给无监督学习提供了良好的范式. 本文根据深度生成模型处理似然函数的不同方法将模型分为三类: 第一类方法是近似方法, 包括采用抽样方法近似计算似然函数的受限玻尔兹曼机(Restricted Boltzmann machine, RBM)和以受限玻尔兹曼机为基础模块的深度置信网络(Deep belief network, DBN)、深度玻尔兹曼机(Deep Boltzmann machines, DBM)和亥姆霍兹机, 与之对应的另一种模型是直接优化似然函数变分下界的变分自编码器以及其重要的改进模型, 包括重要性加权自编码和可用于半监督学习的深度辅助深度模型; 第二类方法是避开求极大似然过程的隐式方法, 其代表模型是通过生成器和判别器之间的对抗行为来优化模型参数从而巧妙避开求解似然函数的生成对抗网络以及重要的改进模型, 包括WGAN、深度卷积生成对抗网络和当前最顶级的深度生成模型BigGAN; 第三类方法是对似然函数进行适当变形的流模型和自回归模型, 流模型利用可逆函数构造似然函数后直接优化模型参数, 包括以NICE为基础的常规流模型、变分流模型和可逆残差网络(i-ResNet), 自回归模型(NADE)将目标函数分解为条件概率乘积的形式, 包括神经自回归密度估计(NADE)、像素循环神经网络(PixelRNN)、掩码自编码器(MADE)以及WaveNet等. 详细描述上述模型的原理和结构以及模型变形后, 阐述各个模型的研究进展和应用, 最后对深度生成式模型进行展望和总结.
引
受益于当前计算机性能的快速提升, 学习可观测样本的概率密度并随机生成新样本的生成模型成为热点. 相比于需要学习条件概率分布的判别模型, 生成模型的训练难度大、模型结构复杂, 但除了能够生成新样本外, 生成模型在图像重构、缺失数据填充、密度估计、风格迁移和半监督学习等应用领域也获得了巨大的成功. 当前可观测样本的数量和维数都大幅度增加, 浅层的生成模型受到性能瓶颈的限制而无法满足应用需求, 从而被含有多个隐藏层的深度生成模型替代, 深度生成模型能够学习到更好的隐表示, 模型性能更好. 本文对有重要意义的深度生成模型进行全面的分析和讨论, 对各大类模型的结构和基本原理进行梳理和分类. 本文第1节介绍深度生成模型的概念和分类; 第2节介绍受限玻尔兹曼机和以受限玻尔兹曼机为基础模块的几种深度生成模型, 重点内容是各种模型的不同训练算法; 第3节介绍变分自编码器的基本结构、变分下界的推理和重参数化方法; 第4节介绍生成对抗网络, 主要内容为模型原理、训练方法和稳定性研究, 以及两种重要的模型结构; 第5节总结了流模型的结构, 详细介绍了流模型的技术特点; 第6节分析了自回归模型的模型结构以及几种重要分支的研究进展; 第7节将介绍生成模型中的两个小分支: 矩阵匹配模型和随机生成模型; 第8节对深度生成模型存在的问题进行分析讨论, 并对未来的研究方向和发展趋势做出了展望.
1.
深度生成模型的目标函数是数据分布与模型分布之间的距离, 可以用极大似然法进行求解. 从处理极大似然函数的方法的角度, 可将深度生成模型分成如下三种, 分类内容如图1所示. 具体分类方式如下:

图
第一种方法是通过变分或抽样的方法求似然函数的近似分布, 这种方法可称为近似方法, 主要包括受限玻尔兹曼机和变分自编码器. 用抽样方法近似求解似然函数的受限玻尔兹曼机属于浅层模型, 以该模型为基础模块的深度生成模型.
包括深度玻尔兹曼机和深度置信网络两种; 变分自编码器用似然函数的变分下界作为目标函数, 这种使用变分下界替代似然函数的近似方法的效率比受限玻尔兹曼机的抽样方法高很多, 实际效果也更好, 变分自编码器具有代表性的模型包括重要性加权自编码、辅助深度生成模型等.
第二种方法是避开求极大似然过程的隐式方法, 其代表模型是生成对抗网络. 生成对抗网络利用神经网络的学习能力来拟合两个分布之间的距离, 巧妙地避开了求解似然函数的难题, 是目前最成功、最有影响力的生成模型, 其具有代表性的模型很多, 例如深度卷积生成对抗网络、WGAN和当前生成能力最好的BigGAN; 另外利用参数化马尔科夫过程代替直接参数化似然函数的生成随机网络也属于此类方法.
第三类方法是对似然函数进行适当变形, 变形的目的是为了简化计算, 此类方法包括流模型和自回归模型两种模型. 流模型利用可逆网络构造似然函数之后直接优化模型参数, 训练出的编码器利用可逆结构的特点直接得到生成模型. 流模型包括常规流模型、变分流模型和可逆残差网络三种; 自回归模型将目标函数分解为条件概率乘积的形式, 这类模型有很多, 具有代表性的包括像素循环神经网络、掩码自编码器以及成功生成逼真的人类语音样本的WaveNet等.

图

图

图

图
作者简介
胡铭菲
中国石油大学 (北京) 自动化系博士研究生. 主要研究方向为模式识别, 智能系统.
E-mail: hmfzsy@gmail.com
左
中国石油大学 (北京) 自动化系教授. 主要研究方向为智能控制.
E-mail: zuox@cup.edu.cn
刘建伟
中国石油大学 (北京) 自动化系副研究员. 主要研究方向为模式识别, 智能系统, 先进控制. 本文通信作者.
E-mail:
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200302?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190303?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c210035?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.200665?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180285?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200604?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200171?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190031?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180831?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180054?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2020.c200033?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190733?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180212?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c170669?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170464?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170473?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170483?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160326?viewType=HTML