美国视频质量测试的解决方案

来源：互联网发布：620f清零软件编辑：程序博客网时间：2024/06/09 21:38

了解MOS与JND和峰值信噪比

“视频质量”仍然不好界定，例如我们可以，试图评估基于相机的工作使得艺术选择视频节目的质量，但这不会是非常有用的。相反，我们的目标是提供一个工具，解决网络或测试压缩算法产生一个有吸引力的图片和声音流的能力是有用的。为此，我们要定义“质量”的保真度；即如何密切不处理或传递信号与原始信号（或引用）？我们主要关注的是检测和量化，引入了信号在通过网络或设备的任何扭曲。
质量测量从一个简单的概念：我们必须判断视频质量以一致的方式而失真的类型。定义视频质量

视频质量由三个主要部分组成：

图像质量–眼的理解能力的图片索引
音频质量–的耳朵的辨别能力的音频索引
唇同步–测量音频视频同步

本文将重点对图像质量和最终的主观测试是唯一行之有效的方法来评价图像质量。不幸的是，这种模式的测试是非常昂贵的，费时，而且往往是不切实际的。一种流行的方法是绝对的分类评级（ACR），其中人体显示两视频序列（原始和加工），要求对原评估的处理序列的整体质量（参考）序列。测试可以分为多个会话，如果是这样的话，每次不超过30分钟。为每个会话，添加多个虚拟的序列，这是用来训练的人，不包括在最后的分数。的各科成绩处理后的视频序列的规模（通常是5或9）相应的质量–这称为平均意见得分（MOS）心理测量。

当MOS得分在1到5的规模，成绩

非常差
差的
一般
好
非常好

结果，当然，测试不同的测试，但如果值足够大（16以上），分数趋于稳定。

错误类型

有两类领先的数字电视问题的来源：

数字传输路径可以低于可接受的水平，导致完全丧失–即没有图片，没有声音。
量和压缩质量本身质量差。

检查错误的数字传输路径是相当简单的。它可以简单地通过一个路径和验证接收到的信号是位配一点已知信号完成。

很多视频编解码器使用的一组图片（GOP）的框架结构，包括独立编码的参考帧（“我”的框架），运动变化从去年的参考帧（P帧）和运动的变化从去年的参考下参考帧（B帧）。如果发生传输错误，丢失的帧的类型决定了有多少其他帧的影响。如果压缩是将结果过于极端或块状模糊的图像。

IBBP描述

如果在一个帧丢失的传输错误的结果，然后丢帧的类型决定了时间的损失：

失去的“我”的框架使所有帧到下一个“我”的框架被丢失
丧失“P”框架影响所有帧的质量从“P”到下一个“我”的框架
丧失“B”框架对这只“B”框架

由于错误隐藏技术在解码、传输错误通常只影响到视频的一部分，如下图所示。这些隐藏的错误留在地方，直到下一次，这部分的视频更新–不是下一个“我”的框架或如果运动改变了这个地区的一个“P”。一个传输错误举例如下。原来是在左边。

右边隐藏传输错误
传动误差

如果视频信号需要重新压缩或率形状适合传输的可用带宽，压缩可能太高。在这种情况下，视频会变得模糊或块状。一个封闭的错误举例如下。原来是在左边。

阻止错误–太高压缩的权利

视频是不是唯一的地方，压缩、数字化发生。大多数音频编解码器检测高频分量和编码这些极少数的位，因为人耳只能听到响亮的高频率。一些算法减少了动态范围来减少数据量。如果发生传输错误，音频将流行或去沉默。如果压缩过于极端，音频会缺乏深度–即声音尖细或空心。

感性/质量客观测试

已经开发了许多算法采用数学分析在观察者的位置估计的视频质量。这些算法是适合的主观数据，较好地反映了一个客观的方法来衡量的主观质量。该算法分为三大类：

全参考算法比较输出视频流输入（或参考）
对输出流的无参考算法。
减少额外的参考算法的具体信息从输入流和输出流的时候用分析。

在本文中，我们将只讨论全参考算法。

开始，两流（“参考”和“加工”）必须对齐的时间和空间。音频和视频的同步问题，发现这一点。无论是音频和视频是同步的或不，这两个信号可以进一步分析。

最广泛使用的指标是PSNR（峰值信噪比）或MSE（均方误差）。同时测量输入与输出之间的误差。信噪比表示的结果作为以分贝峰值信号比。PSNR和MSE是高度精确的视频质量的预测特别是今天的视频处理技术，但他们确实发挥了重要的作用。不同的指标很快就要讨论，PSNR和MSE的指标。他们测量两路信号之间的绝对差异，这是完全可以量化的。这是非常重要的质量监控，感知质量已经在实验室环境下测得的，我们需要的是通过/失败指示。一个为35dB的PSNR值通常被认为是良好的。一般比较PSNR MOS所示。
信噪比与MOS的情节

传统的感知视频质量指标的方法是基于自底向上的方法，试图对有关早期人类视觉系统（HVS）的功能和人的音响系统（已经）组件。这些方法通常涉及

捕获两信号–参考和处理
视频/音频对齐
低通滤波（模拟眼–视频）
计算影响人类的眼睛/耳朵的差异。
- 块效应
- 模糊
- 噪声
- 动态范围不足
- 高频率的损失。
扭曲的类型分类，增加了分数
结垢导致对应于主观MOS分

虽然这些自下而上的方法可以方便地利用许多已知的物理特征的视觉/，它是认识到自己的局限性的重要。特别是，HVS和具有高度非线性的系统和自然图像/声音很复杂。大多数模型都是基于线性或准线性算子已使用限制和简单的刺激特征。一些模型，属于这一类如下：

Sarnoff工艺–首先预示着广泛HVS的度量
VQM–视频质量度量
有–感性评价视频质量
听音–感知评价的音频质量

结构相似性（SSIM）方法提供了解决视频质量评估问题的替代性和互补的方式。它是基于一种自上而下的假设是人眼视觉系统能高度自适应提取图像的结构信息，因此衡量结构的相似性，应该是一个很好的近似图像感知质量。眼睛可以即使部分缺失的形状识别。它已经表明，一个简单的实现方法优于国家的最先进的感知图像的质量指标。然而，SSIM指标达到最佳的性能，当应用在适当的规模（即观众的距离/屏幕高度）。校准参数，如观看距离和分辨率的图片，创建该方法最大的挑战。为了纠正这一点，多尺度、结构相似度（MS-SSIM）已被定义。在MS-SSIM，图片是在不同的分辨率和评估的结果是一个平均的校准步骤。它已经表明，MS-SSIM执行简单的SSIM即使SSIM是正确校准环境和数据集。对MS-SSIM显著优点更多的信息可以在一个单独的视频清晰度发表的论文发现，提出的多尺度方法。

无论是在自上而下或自下而上的方法，模型产生的号码，号码需要与主观MOS相关。两种方法可供使用克利尔维尤分析仪：

微分平均意见得分（DMOS指数）与MS-SSIM算法
只是明显的差异（JND指数）与萨尔诺夫/ PQR算法

DMOS的区别是“参考”和“加工”是指在一个完整的参考测试系统意见得分。DMOS器件可在0–4的规模以及得分最低值7或10在克利尔维尤分析仪。组织评分一般准则如下。

大多数用户不满意–3.1-4 .0

2.1-3.0–很多用户不满意

–1.12.0一些用户满意

而–大多数用户满意

0.0-0.6–非常满意

JND是基于对图像之间的细微差别是难以觉察到观众的原则，需要产生一个明显的差异可以量化的变化量。这种变化可以有多种形式，如在图像清晰度的变化，在图像块的外观，或其他类似的扭曲。量化JND，观众表现出对图像，并要求确定哪一个是原始的、无失真的图像，以某种方式被降解。对于图像对具有细微的差异，观众通常会分裂投票50/50之间的图像，产生一个0的JND评分。图像对，有一个“明显”的区别，选票将分75 / 25有利于正确识别扭曲的形象；这种程度的扭曲会被分配一个JND疮1。

在JND规模创造更多的步骤，比较的结果是“堆积”扩大规模。要做到这一点，有一个1的JND评分图片现在作为参考，然后扭曲再次产生一个75 / 25正确的投票。新的扭曲的图像则给出了2的JND评分，既然是“明显的”不同于JND 1图像。这个过程被重复，与JND 2图像作为参考来创建具有3 JND得分图像，等等。一个多步骤的整个规模可以使用这种方法创建的，有一个JND评分，影像说，7有3个图像四级JND评分差异明显。比较JND规模DMOS的规模，表明基于我们的观察对比。

DMOSJND描述
13 +可能没有对齐检查时空对准3.5000–410–12.99看的3–3.49997–9.99烦人的0.4000–2.99992–6.99广播质量0.0001–0.39990.01-1.99生产质量零零无缺陷

主观数据

需要记住的最重要的项目是有损的，压缩的信号失真。理解质量，我们必须的指标或指标数据与主观MOS。为此，我们必须有一个开放的、主观的数据检索数据库。

VQEG（视频质量专家组）创造了一个大型数据库的视频。他们压缩这些使用H.263，H.264和MPEG-2，进行主观测试。这些数据库是开放给会员公司，但不是免费的。

德克萨斯大学开始与慕尼黑工业大学的集免费视频和扭曲这些在MPEG-2和H.264的几种方式和传输在IP网络。他们进行了主观测试和编译结果在一个免费的数据库叫做生活。

Sarnoff公司/ PQR和MS-SSIM算法进行进一步的讨论在我们的网站上下。

视频清晰的解决方案

视频清晰度目前生产三个产品线：
–Clearview AV分析仪
–RTM（实时监控）
–Clearview播放器/录音机

ClearView视频AV分析仪产生测试信号，捕捉生活的输入，输入压缩或未压缩的文件。然后他们将音频和视频自动报告视频和音频感知分数与DMOS，JND和PEAQ指数。Clearview也计算性能指标如PSNR的视频和音频性能和唇同步afreq。对于感性的视频测量系统使用萨尔诺夫/ PQR算法移植到JND（使用VQEG数据库）和MS-SSIM算法移植到DMOS（使用德克萨斯大学的数据库）。它也可以让你查看“参考”和“处理”的信号并行或自己的主观评价差异图。

RTM捕捉2现场输入，将音频和视频输入，报告唇同步问题，计算出2个输入之间的绝对差（公制），不断报告质量评分，产生通过/失败，可以为进一步的离线分析故障。

ClearView的播放器/录像机提供制备具有音频和饭店在重复循环播放或游戏测试列表未压缩的视频记录或文件的一个可靠的解决方案。

阅读全文

0 0