【安防知识网】现行国际视频编码标准
近年来,视频编码技术得到了迅速发展和广泛应用,并且日臻成熟,其标志是多个关于视频编码的国际标准的制定。其可分为两大系列:即国际标准化组织(ISO)和国际电工委员会(IEC)的运动图像专家组MPEG(Motion Picture Expert Group)关于活动图像的编码标准MPEG系列,以及国际电信联盟(ITU)的视频编码专家组VCEG(Video Coding Expert Group)制定的视频编码标准H.26X系列。
MPEG4/H.264/AVC标准
MPEG4/H.264/AVC是一种有损压缩,以处理后的图像无限接近和还原真实图像为目标。MPEG4/H.264/AVC对编解码器如何实现并没有明确规定,而是规定编码视频比特流的句法和该比特流的解码方法。这种技术,使得各个厂商的编码器和解码器在此框架下应能够互通,在实现上具有较大灵活性,而且有利于相互竞争。
从图1和图2可以看出,MPEG4/H.264/AVC和以前标准(如H.261、H.263、MPEG-1、MPEG-4)的编解码器功能块组成并没有什么区别,仍是变换和预测相结合的混合编码法,不同点在于各功能块的细节。
[nextpage]由图1可见,输入的帧或场Fn以宏块为单位被编码器处理。首先,判定帧是否按帧内还是帧间预测编码方式进行预测。如果采用帧间预测,其预测值PRED(图中用P表示)由当前序列中已编码并解码重建和滤波的图像作为参考图像(如图1中的F'n-1),经运动补偿(MC)得到。为了提高预测精度,从而提高压缩比,实际的参考图像可在过去或未来(指显示次序上)的重建帧中进行选择。参考图像选择的准确与否,很大程度决定了真实图像与呈现图像之间的差值大小。
预测值PRED和当前块的相应值相减后,产生一个残差块Dn,经块变换、量化后产生一组量化后的变换系数X,再经熵编码,与解码所需的一些信息(如预测模式量化参数、运动矢量等)一起组成一个压缩后的码流,经NAL(网络自适应层)供传输和存储用。
正如上述,为了提供进一步预测用的参考图像,编码器必须有重建图像的功能。因此必须使残差图像经反量化、反变换后得到的Dn'与预测值P相加,得到uFn'(未经滤波的帧)。为了去除编码解码环路中产生的噪声,提高参考帧的图像质量和压缩图像性能,设置了一个环路滤波器,滤波后的输出重建图像Fn'可用作参考图像。在这一步骤中,重建图像是通过预测值来实现的,虽然从算法上降低了失误性,却进一步加大了人为改变原始图像的因素。
由图1可知,编码器的NAL输出一个压缩比特流。该比特流在图2中经熵解码得到量化后的一组变换系数X,再经反量化、反变换,得到残差Dn'。 Dn'和该解码器产生的PRED(与编码器产生的PRED相同)相加后,得到uFu',经滤波后,最后得Fn',Fn'即最后的解码输出图像。
JPEG标准
1991年3月ISO/IEC正式通过了静止图像压缩编码标准,称为JPEG建议。JPEG标准分为基本系统、扩展系统和信息保持系统三个部分。基本系统提供对顺序扫描静止图像的高效有损编码,输入图像精度为8bit/像素。
(1)图3为JPEG基本系统的编解码器方框图,输入的彩色图像为Y、U、V三个分量,JPEG对他们分别进行编码。
(2)编码时,先将一帧图像分为互不重叠的8×8像素块,接着对各块进行DCT变换,然后对各变换系数进行线性量化。
[nextpage]量化步长Q应结合人眼视觉敏感性,亮度和色差信号的量化步长矩阵见表1和表2。
量化后系数为:
反量化后DCT系数为:
(3)熵编码,一般采用哈夫曼(VLC)编码。AC系数量化后为少数稀疏的值,大部分为零,采用锯齿形(Zig-Zag)扫描,然后以游程编码表示方式进行变长的哈夫曼编码。
(4)数据交换格式
熵编码后得到变长度的码流。为便于数据的交换,JPEG规定了统一的压缩后数据交换格式,如图4所示。
第一行:SOI表示图像数据开始;EOI为一帧图像结束,各占两个字节。
第二行:表/杂项中放置量化表、哈夫曼表;帧首包括编码方法、取样精度、量化系数、源图像行数、每行取样数等;DNL重新定义帧内的行数。
第三行:扫描首说明扫描起始信息、分量图像号码、参数、熵编码表选择(ECS);RST为重新开始标志。
第四行:为熵编码区,MCV为最小编码单元,包括4个亮度块,1个Cr块和1个Cb块。
[nextpage]熵编码是无损压缩编码方式,它生成的码流可以经解码无失真地恢复出原数据。熵编码是建立在随机过程的统计特性的基础上的。
上述可见,JPEG标准的编码方式,是一种以DCT(Discrete Cosine Transform)为基础的压缩方法的压缩格式,也称为基线顺序编解码(Baseline Sequential Codec)方法,通过各种算式来降低图像数据量。缺点在于压缩量有限。这种方法的优点是先进、有效、简单、易于交流,因此应用广泛。
M-JPEG标准
MJPEG全名为“Motion”JPEG,Motion JPEG技术是将来自摄像机的模拟视频信号“翻译”成视频流,并存储在硬盘上。典型的应用如数字视频记录器等。MJPEG不像MPEG,不使用帧间编码,因此用一个非线性编辑器就很容易编辑。MJPEG的压缩算法与MPEG一脉相承,功能很强大,能发送高质图片,生成完全动画视频等。但相应地,MJPEG对带宽的要求也很高,相当于T-1,MJPEG信息是存储在数字媒体中的庞然大物,需要大量的存储空间以满足如今多数用户的需求。因此从另一个角度说,在某些条件下,MJPEG也许是效率最低的编码/解码器之一。
兼顾码率控制与图像真实
视频是利用人的视觉获取的信息,它具有直观性的特点,不易和其他信息相混淆,保证了信息的准确性。同时,由于视觉,可以并行地观察图像,因而获取信息的效率比音频高得多。
与此同时,视频信号具有显著的高带宽特性。视频信息的表示形式是视频电信号,通过网络传送至终端用户,并在屏幕上显示。视频信号所包含的信息量大,其内容可以是活动的,也可以是静止的;可以是彩色的,也可以是黑白的;有时变化多、细节多,有时十分平坦。一般而言,视频信号信息量大,传输网络所需要的带宽较宽。例如,一路监控视频信号,由于其活动内容较少,所需带宽较窄,但要达到良好质量,不压缩约需若干Mbps,压缩后需要300~400Kbps。可见,视频信息虽然具有直观性、确定性、高效性等优越性能,但要传送却需要较高的网络带宽。这就是为获得视频信息所需付出的代价。
如上所述,视频信号由于信息量大,传输网络带宽要求较高,就像一辆庞大的货车只有在宽阔的马路上才能行驶一样,必须将视频信号在传送前先进行压缩编码,然后在网络上进行传送,以便节省传送带宽和存储空间。
一旦采用MPEG4/H.26X系列的压缩方式,势必引起呈现图像跟真实图像之间的预测差,虽然呈现的图像是尽可能地对真实图像进行还原,毕竟不是完全真实的图像。若采用M-JPEG的压缩方式,虽然图像质量得到了保证,但压缩比过小,无法在现实网络中使用,而无意义。
而JPEG压缩虽是有损压缩,但它利用的是人视觉系统的特性,使用量化和无损压缩编码相结合,来去掉视觉的冗余信息和数据本身的冗余信息。JPEG算法压缩编码大致分成三个步骤:
1、使用正向离散余弦变换(forward discrete cosine transform,FDCT)把空间域表示的图像变换成频率域表示的图像。
2、使用加权函数对DCT系数进行量化,这个加权函数对于人的视觉系统是最佳的。
3、使用霍夫曼可变字长编码器对量化系数进行编码。