1.7 视频图像质量评价
评价不同的视频编解码性能需要通过比较几个指标来进行,这些指标包括码率(或压缩率)、计算成本(或复杂度)、质量(或失真)、可分层性、对错误的稳健性和互操作性等。压缩码率是传输一个编码的视频序列需要的单位时间内的比特数,单位是每秒比特数(bit per second),简写为b/s。对一个压缩视频流计算或者测量码率是很容易的。计算成本指的是编码视频序列所需要的处理能力。
质量方面的评估意味着编码后的视频序列能在多大程度上恢复成编码前的视频序列。采用有损压缩的技术能够显著降低码率,但同时也会降低视频图像的质量,因此,对于有损压缩算法,需要建立一套评价标准,对编码质量进行评价。评价方法可以分为主观质量评价和客观质量评价两大类。
1.7.1 主观质量评价
主观质量评价是让观测者根据事先规定的评价尺度或者凭借自己的经验,对测试视频按视觉效果进行判断,并给出质量分数,然后对所有观测者给出的分数进行加权平均,所得数值即为待测信号的主观质量评价结果。人类心理学和视觉环境,如观察者的视力、感知质量和分数级别之间的翻译、对内容的偏好、自适应性、显示设备和周围的光线环境等因素的影响,导致了主观评测实验的复杂性。
平均主观意见得分(Mean Opinion Score,MOS)是衡量主观质量的标准之一。在主观实验中,一群人(通常是15~30个)被要求观察一组视频剪辑,并对它们的质量确定等级,然后把这些评分做平均,这就是MOS,所以MOS表示的是所有观察者对于一个给定的视频片段给出的等级平均。国际电信联盟电信标准化部门(ITU-T)在各种建议中已正式确定了一些直接评级的方法,建议的测试过程包括:隐式比较法,例如双激励连续质量评级(Double Stimulus Continuous Quality Scale,DSCQS)法;显示比较法,例如双激励损伤评级(Double Stimulus Impairment Scale,DSIS)法;绝对评级法,例如单激励连续质量评价(Single Stimulate Continuous Quality Evaluation,SSCQE)法;绝对分类评级(Absolute Category Rating,ACR)法。其中,在给定一致的视觉环境和主观任务时,SSCQE和DSCQS这两种评价方法被证明具有可重复的和稳定的结果,已经被国际电信联盟作为国际标准的一部分。
1.7.2 客观质量评价
要评估视频质量,最好是进行主观质量评价,也就是说由真实的观察者来进行评价。然而主观质量评价是很耗时且昂贵的,这是由于需要大量的观察者和大量要被评级的视频材料,而且对于实时系统,主观质量评价不能快速实现。而对图像和视频进行客观质量评价的目的是,在尽量保持与人类质量判断一致的前提下,自动评价图像或视频序列的质量。
由于主观质量评价方法费时费力,无法实时给出评价结果,因此在实际应用中,主要是使用可以自动测算的客观质量评价方法。常用的客观质量评价算法有均方误差(Mean Square Error,MSE)、信噪比(Signal Noise Ratio,SNR)、峰值信噪比(Peak Signal Noise Ratio,PSNR)等,其中最常用的是PSNR,其数学公式如下。其中MSE表示原始图像和解码后的重构图像对应像素间的均方差。PSNR的单位为分贝(dB)。
在公式中,N是行数,M是列数;xij是位于第i行第j列的原始图像(视频序列)的像素值;yij是位于第i行第j列的解码后的图像(视频序列)的像素值,而n表示图像像素采样的精度(b),通常为8b,则像素的峰值为28-1=255,如果采样精度到了10b,或者12b,那么这个值就要改成210-1=1023,或者212-1=4095了。例如当n=8的时候,PSNR值如下所示:
PSNR的计算简单,易于实现,对于一个特定的编解码系统和一个固定的视频内容,PSNR的值总是随着图像主观质量的增加而单调增加,然而在跨越不同视频内容评价视频质量时,PSNR可能不是一个可靠的方法。另一种常用的度量方法为结构相似性评估(Structural Similarity Index Measure,SSIM),其基本原理是真实的图像信号具有高度的结构化,它们的像素点之间具有强烈的相关性,特别是当这些像素点之间在空间位置近似时,这些相关性携带了重要的视觉物体的结构性信息。人眼的主要功能是从视觉区域提取图像的结构化信息,同时人眼视觉系统(Human Visual System,HVS)具有高度的适应此特性的功能。因此,结构相似性评估方法应该对图像失真的感知具有很好的近似性。
假设输入原始图像为X,待测试图像为Y,首先分别提取其亮度变化信息,然后再提取信号的对比度变化信息,在此基础上再提取结构变化信息,并对以上3种变化信息进行相似性比较,最后对比较结果进行综合,从而得到一种相似性度量指标,并以此指标作为图像质量好坏的评价尺度。具体方法如下:
首先定义图像信号的平均亮度,如下所示,其中xi为图像X的第i个像素点的值,N为图像像素的个数。
那么亮度对比函数如下,其中C1是为了保证时等式有意义。
其次,从信号中分离平均亮度后的信号X-μx与向量X在公式确定的超平面上投影一致。
信号对比度可用标准差来估计,其离散形式的无偏估计和由此得到的相似性如下,其中C2是一个非负常量。
最后,用信号的标准差来对其进行归一化,因此,结构相似性比较函数可由其归一化信号来表示:
将以上3个因子相结合,并令,在3个因子权重都为1的情况下得到SSIM的函数:
由于HVS的非均匀取样特性,在一个特定的观察距离范围内,信号中可能只有一个局部区域能被观察者在某一个瞬间感知,而且图像的统计特征经常是空间不稳定的,因此当运用SSIM指标来度量较大尺寸的图像时,对其局部进行计算比对全局进行计算效果要好。一般在PSNR相当的情况下,视觉质量好的视频其SSIM取值较高;当视觉质量较好的时候,即PSNR值比较大的情况下,SSIM区分度较小;而当视觉质量较差时,即PSNR在30dB以下时,SSIM对视频质量有较好的分区度。