基于混合生成对抗网络的多视角图像生成算法

引用本文
卫星, 李佳, 孙晓, 刘邵凡, 陆阳. 基于混合生成对抗网络的多视角图像生成算法. 自动化学报, 2021, 47(11): 2623−2636 doi: 10.16383/j.aas.c190743
Wei Xing, Li Jia, Sun Xiao, Liu
Shao-Fan, Lu Yang. Cross-view image generation via mixture
generative adversarial network. Acta Automatica Sinica, 2021,
47(11): 2623−2636 doi:
10.16383/j.aas.c190743
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190743?viewType=HTML
文章简介
关键词
深度学习, 计算机视觉, 图像翻译, 多视角图像生成
摘
多视角图像生成即基于某个视角图像生成其他多个视角图像, 是多视角展示和虚拟现实目标建模等领域的基本问题, 已引起研究人员的广泛关注. 近年来, 生成对抗网络(Generative adversarial network, GAN)在多视角图像生成任务上取得了不错的成绩, 但目前的主流方法局限于固定领域, 很难迁移至其他场景, 且生成的图像存在模糊、失真等弊病. 为此本文提出了一种基于混合对抗生成网络的多视角图像生成模型ViewGAN, 它包括多个生成器和一个多类别判别器, 可灵活迁移至多视角生成的多个场景. 在ViewGAN中, 多个生成器被同时训练, 旨在生成不同视角的图像. 此外, 本文提出了一种基于蒙特卡洛搜索的惩罚机制来促使每个生成器生成高质量的图像, 使得每个生成器更专注于指定视角图像的生成. 在DeepFashion, Dayton, ICG Lab6数据集上的大量实验证明: 我们的模型在Inception score和Top-k accuracy上的性能优于目前的主流模型, 并且在结构相似性(Structural similarity, SSIM)上的分数提升了32.29%, 峰值信噪比(Peak signal-to-noise ratio, PSNR)分数提升了14.32%, SD (Sharpness difference)分数提升了10.18%.
引
多视角图像生成指的是基于某个视角的图像生成其他视角的图像, 该问题在实际生活中具有很多应用, 例如: 电商网站上商品的多视角展示、虚拟现实中的目标建模和和数据集扩充等. 目前多视角图像生成已经吸引了来自计算机视觉、虚拟现实等众多领域研究人员的兴趣, 并取得了一定的进展.
早期工作中, 研究人员尝试使用变分自编码器(Variational autoencoder, VAE)生成多视角图像. 变分自编码器采用变分推断和深度表示学习来得到一个复杂的生成模型, 从而摆脱了传统耗时的采样过程. 但变分自编码器并不能很好地补充生成图像中的细节. 此外, 研究人员还尝试先建立目标的3D模型, 再生成目标视角的图像, 但这种方法的灵活性较弱, 只适合于合成椅子、杯子等简单物体的图像.
近年来, 有研究人员提出使用生成对抗网络(Generative adversarial network, GAN)来生成多视角图像. 在文献[4]中, 研究人员将变分自编码器与生成对抗网络相结合, 提出了一种面向服装的多视角图像生成模型VariGANs. VariGAN模型将图像生成分为两步, 采用由粗到精的方式生成高分辨率的多视角图像, 本文模型也参考了这种由粗到精的生成方式. 但VariGAN模型局限于服装的多视角图像生成, 并不能有效迁移至其他领域.
在文献[2]中, 研究人员尝试在图像生成中引入语义指导, 提出了两种多视角图像生成模型X-Fork和X-Seq. 这两个模型将已知视角的图像与目标视角的语义分割图共同输入模型, 填补了生成图像中的语义结构, 使得生成的图像更加真实. 受到文献[2]中工作的启发, 文献[5]中的研究人员提出了一种基于多通道注意力机制的SelectionGAN模型. SelectionGAN模型将语义生成空间进一步扩大, 模型通过参考生成的中间结果, 进一步完善了图像中的语义细节, 在卫星图与地面图的翻译任务中取得了很好的成绩. 但以上的工作对于多视角生成任务中其他场景的兼容性较差, 因为并不是所有场景下都有充足的语义分割图来进行训练模型.
为解决上述问题, 本文提出了一种基于混合生成对抗网络的多视角图像生成模型ViewGAN, 该模型可以灵活迁移至多视角生成任务中的各个场景. ViewGAN包含多个生成器和一个多类别判别器, 每一个生成器负责生成某一视角的图像. 如图1所示, 模型分两步生成图像: 1) 模型运用粗粒度模块(Coarse image module)生成低分辨率(Low resolution, LR)下的目标图像; 2) 在低分辨率目标图像的基础上, 模型运用细粒度模块(Fine image module)完善图像的语义结构, 生成高分辨率(high resolution, HR)下的目标图像.

图
本文的ViewGAN模型与以往工作的不同之处在于:
1) ViewGAN包含多个生成器和一个判别器,
每一个生成器负责生成某一视角的图像, 这保证了ViewGAN模型可以灵活迁移至各种多视角生成任务中,
甚至还可以运用到图像翻译的其他领域, 例如风格转换等;
2) 为了加强图像生成过程中的语义约束,
本文使用蒙塔卡罗搜索方法(Monte Carlo search, MCS)对低分辨率目标图像进行多次采样,
并根据采样结果计算相应的惩罚值, 惩罚机制可以迫使每个生成器生成语义更加丰富的图像, 避免出现模式崩塌(Mode
collapse);
3) 模型中的多类别判别器使每个生成器更加专注于生成它们指定视角的图像,
避免生成与其他视角相似的图像, 从而进一步完善了图像的语义结构;
4) 本文将ViewGAN模型与目前主流的图像生成模型(例如: Pix2Pix, VariGAN, X-Fork和X-Seq, SelectionGAN)进行了对比, 并在3个公开数据集上进行了大量的实验, 实验结果表明: 本文模型在3个数据集上都取得了最好成绩, 这表明了本文模型的灵活性和生成图像的高质量.
综上所述, 本文的主要贡献总结如下:
1) 提出了一种基于混合生成对抗网络的多视角图像生成模型ViewGAN, 该模型包括多个生成器和一个判别器, 采用由粗到精的方式生成不同视角下的高质量图像.
2) 提出了一种基于蒙特卡洛搜索的惩罚机制来加强图像生成过程中的约束, 这使得每个生成器能够获得更充足的语义指导, 在对应视角的图像中增加更多的语义细节.
3) 在3个数据集上与目前的主流模型进行了大量的对比实验, 实验结果证明了ViewGAN在各种场景下的有效性与灵活性.

图

图
作者简介
卫
合肥工业大学副教授. 2009年于中国科技大学获得博士学位. 主要研究方向为深度学习与物联网工程, 无人驾驶解决方案.
E-mail: weixing@hfut.edu.cn
李
合肥工业大学计算机与信息学院硕士研究生. 主要研究方向为自然语言处理, 情感对话生成.
E-mail: lijiajia@mail.hfut.edu.cn
孙
博士, 合肥工业大学计算机与信息学院情感计算研究所副教授. 主要研究方向为情感计算, 自然语言处理, 机器学习与人机交互, 本文通信作者.
E-mail: sunx@hfut.edu.cn
刘邵凡
合肥工业大学硕士研究生. 2018年于合肥工业大学获得学士学位. 主要研究方向为目标检测和领域自适应.
E-mail: frank-uzi@hotmail.com
陆
合肥工业大学教授. 2002年于合肥工业大学获得博士学位. 主要研究方向为物联网工程和分布式控制系统.
E-mail: luyang.hf@126.com
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.y000003?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190124?viewType=HTML
[4]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190178?viewType=HTML
[5]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200956?viewType=HTML
[6]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180829?viewType=HTML
[7]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190821?viewType=HTML
[8]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190455?viewType=HTML
[9]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190074?viewType=HTML
[10]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190859?viewType=HTML
[11]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190531?viewType=HTML
[12]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372?viewType=HTML
[13]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180271?viewType=HTML
[14]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180154?viewType=HTML
[15]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c180236?viewType=HTML
[16]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170190?viewType=HTML
[17]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170153?viewType=HTML
[18]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c160452?viewType=HTML
[19]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160690?viewType=HTML
[20]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c150634?viewType=HTML
[21]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160822?viewType=HTML
[22]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160425?viewType=HTML
[23]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c150425?viewType=HTML