基于多层BP神经网络的无参考视频质量客观评价

引用本文
姚军财, 申静, 黄陈蓉. 基于多层BP神经网络的无参考视频质量客观评价. 自动化学报,
2022,
Yao Jun-Cai, Shen Jing, Huang Chen-Rong. No reference video quality
objective assessment based on multilayer BP neural network. Acta
Automatica Sinica, 2022,
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c190539?viewType=HTML
文章简介
关键词
视频质量评价, 神经网络, 时延, 视频内容
摘
机器学习在视频质量评价(Video quality assessment, VQA)模型回归方面具有较大的优势, 能够较大地提高构建模型的精度. 基于此, 设计了合理的多层BP神经网络, 并以提取的失真视频的内容特征、编解码失真特征、传输失真特征及其视觉感知效应特征参数为输入, 通过构建的数据库中的样本对其进行训练学习, 构建了一个无参考VQA模型. 在模型构建中, 首先采用图像的亮度和色度及其视觉感知、图像的灰度梯度期望值、图像的模糊程度、局部对比度、运动矢量及其视觉感知、场景切换特征、比特率、初始时延、单次中断时延、中断频率和中断平均时长共11个特征, 来描述影响视频质量的4个主要方面, 并对建立的两个视频数据库中的大量视频样本, 提取其特征参数; 再以该特征参数作为输入, 对设计的多层BP神经网络进行训练, 从而构建VQA模型; 最后, 对所提模型进行测试, 同时与14种现有的VQA模型进行对比分析, 研究其精度、复杂性和泛化性能. 实验结果表明: 所提模型的精度明显高于其14种现有模型的精度, 其最低高出幅度为4.34 %; 且优于该14种模型的泛化性能, 同时复杂性处于该15种模型中的中间水平. 综合分析所提模型的精度、泛化性能和复杂性表明, 所提模型是一种较好的基于机器学习的VQA模型.
引
视频技术的发展和应用改变了人们传统的生活、工作和学习等方式. 由此, 视频质量成为一个不可回避的重点话题. 实时、有效和便捷的视频质量评价(Video quality assessment, VQA)方法, 是保障视频有效通信的前提.
视频质量主要受到来自视频内容、编解码、传输环境和人类感知4个大的方面因素的影响. 视频的压缩编码给视频带来模糊、块效应等损伤; 视频传输中的缓冲延时、卡顿、误码等问题造成视频图像模糊、播放停顿等情况, 均会影响网络视频质量, 使得用户体验质量下降; 对于视频内容, 相同的外在环境但不同的视频内容给人的感知效果也有较大的不同, 视频内容同样是影响视频质量的重要因素; 人类是视频质量的最后接受者和评价者, 视频质量评价结果需要符合人类视觉特性. 由此, 在VQA中需要考虑上述4个大的方面的影响.
VQA一般分为3类: 全参考(Full-reference, FR)、部分参考(Reduced-reference, RR)和无参考(No-reference, NR)视频质量评价. 截止目前, 现有的大多数VQA模型均是FR和RR, 其典型的有 PSNR (Peak signal-to-noise ratio)、VSNR (Visual signal-to-noise ratio)、SSIM (Structural similarity index)、VQM (Video quality model)、ST-MAD (Spatiotemporal most apparent distortion algorithm)、MOVIE (Motion-based video integrity evaluation)模型等. 对于NR-VQA, 其不需要任何来源, 该方法进一步分为两类: 1) NR-P (NR视觉感知)类型, 其用于完全解码的视频质量的评价; 2) NR-B (NR编码)类型, 其使用从比特流中提取的信息来评价视频质量. 另外, 神经网络方法在VQA模型回归方面具有较大的优势, 能够较大地提高构建模型的精度, 且由于NR-VQA不需要源视频, 其在视频传输中具有重要的实际应用价值, 因而, 结合神经网络的无参考视频质量评价方法成为视频通信的热门研究课题. 近些年报道相关领域的研究成果主要有VQAUCA (NR VQA using codec analysis)、V-CORNIA (Video codebook representation for NR image assessment)、C-VQA (NR VQA method in the compressed domain)、NR-DCT (Discrete cosine transform-based NR VQA model)、V-BLIINDS (Blind VQA algorithm)、NVSM (NR VQM using natural video statistical model)、3D-DCT (NR-VQA metric based on 3D discrete cosine transform domain)和COME (NR VQA method based on convolutional NN and multiregression)等NR-VQA模型, 但其目前仍存在较多问题, 主要有:
1)失真特征提取数量问题: 在视频通信中, 可能会产生多种类型的视频失真, 在构建NR-VQA模型中, 虽然提取更多的视频失真特征可以提高其评估精度, 但同时也增加了其复杂度. 因此, 构建NR-VQA模型时应尽量提取少量但有效的失真特征, 但这个度非常难把握;
2)视频内容及其视觉感知问题: 现有的NR-VQA模型通常只关注于传输造成的视频失真, 很少考虑视频内容及其视觉感知效果对视频质量的影响. 因此, 其主客观评价结果一致性较差, 需要结合二者提高精度;
3) HVS特性问题: 在VQA中引入合适有效的HVS (Human visual system)感知特性能够显著性提高VQA评价精度. 但是, 如果使用从比特流中提取的失真特征来构建NR-VQA模型时, 则很难有效地在模型中引入HVS特性. 因此, 目前一般将VQA-B度量和VQA-P度量相结合, 构建综合的NR-VQA模型, 从而提高了模型的精度;
4)模型的复杂性问题: 在视频通信中, VQA需要实时进行, 其要求模型尽可能简单但有效. 然而, VQA模型往往引入了部分HVS特性, 并且依赖于更多的视频失真特性, 同时, 采用了机器学习方法, 因此, 现有的NR-VQA模型往往非常复杂. 因此, 在构建模型时, 需要对这些特征和方法进行适当的选择, 并对相应的参数进行优化;
5)泛化性问题: 在NR-VQA中, 其方法往往使用机器学习工具获得视频质量评价分数, 然而, 机器学习需要训练样本; 目前, 其常见方法是使用视频数据库中的部分样本进行训练, 而其余部分进行测试, 其实验结果表明, 如此方式, VQA模型精度较高; 然而, 当测试其他数据库中的视频时, 其模型精度则显著下降. 实验表明, 基于机器学习方法的VQA模型的泛化性能往往较差. 因此, 有必要对VQA模型进行优化, 提高泛化性能.
6)模型精度问题: 对于基于机器学习方法的NR-VQA, 往往选取的样本素材、测试和训练样本的比例、不同测试数据库样本等对评价模型的精度有较大的影响. 因此, 在模型构建时需要从样本的多个方面来考虑, 以提高精度.
基于此, 在本研究中, 针对上述影响视频质量的4个大的方面, 结合多层BP神经网络研究了无参考视频质量评价方法, 并与现有模型进行对比分析, 研究了其精度、复杂性和泛化性能.

图

图

图
作者简介
姚军财
博士, 南京工程学院计算机工程学院教授.主要研究方向为图像和视频处理, 计算机视觉与模式识别. 本文通信作者.
E-mail: yjc4782@163.com
申
南京工程学院计算机工程学院副教授. 主要研究方向为图像和视频处理, 多媒体技术和人工智能.
E-mail: shenjingtg@163.com
黄陈蓉
博士, 南京工程学院计算机工程学院教授. 主要研究方向为图像分割和编码, 计算机视觉与模式识别.
E-mail: huangcr@njit.edu.cn
相关文章
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2016.c140854?viewType=HTML
[2]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2011.01322
[3]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2018.c170470?viewType=HTML
[1]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180778
[2]
http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.2017.c160758
[3]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2012.01557
[4]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00174
[5]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2010.00564
[6]
http://www.aas.net.cn/cn/article/doi/10.3724/SP.J.1004.2009.00933
[7]
http://www.aas.net.cn/cn/article/doi/10.1360/aas-007-0175
[8]
http://www.aas.net.cn/cn/article/id/15793
[9]
http://www.aas.net.cn/cn/article/id/16299
[10]
[11]
http://www.aas.net.cn/cn/article/id/15643
[12]
http://www.aas.net.cn/cn/article/id/16118
[13]
http://www.aas.net.cn/cn/article/id/16862
[14]
http://www.aas.net.cn/cn/article/id/17015
[15]
http://www.aas.net.cn/cn/article/id/17203
[16]
http://www.aas.net.cn/cn/article/id/13973
[17]
http://www.aas.net.cn/cn/article/id/17205
[18]
http://www.aas.net.cn/cn/article/id/14101
[19]
http://www.aas.net.cn/cn/article/id/14238
[20]
http://www.aas.net.cn/cn/article/id/14629