在前文中,向大家介绍了已经发展成熟的视频编解码技术标准,这期,接着介绍目前正在发展中的视频编解码技术标准及其未来的发展趋势,希望大家喜欢。
文/董春利
正在发展的视频编解码技术标准
H.264/AVC视频编解码技术与标准
H.264/AVC挟着前辈MPEG-4 的余威,打着世界第一的旗号,在近几年狂扫整个视频编解码界,广泛被 3GPP、DVB、HD-DVD 与 蓝光 DVD所接受。
H.264/AVC是ITU-T Video Coding Experts Group (VCEG)与ISO/IEC Moving Picture Experts Group (MPEG)共同组成的Joint Video Team (JVT) 所制定的视频压缩标准。
JVT制订H.264/AVC视频压缩标准的主要目标在发展一套高效能、具有网络亲和性 (network-friendly) 及具有抗误性 (error resilience) 能力的视频压缩技术,并且大幅改进压缩率,使得相较于MPEG-2、H.263或MPEG-4 Advanced Simple Profile视频压缩标准,在相似的视频压缩质量下可节省约50%以上的位率 (压缩率比MPEG-2 高约2.25-2.5倍;比MPEG-4 ASP 高约 1.6-2倍) 。
H.264/AVC 不只相当有效率,将超高质量的视频以较小的档案储存,它同时也具有相当的延展性,能够制作出各式用途的视频影片,包括手机上使用的 3G 标准以及高分辨率(HD)视频等等。H.264/AVC 可制作出相当赏心悦目,50-160 Kbps 的 3G 手机影片, 800-1500 Kbps 的标准分辨率(SD)视频影片,5-7 Mbps 的优质 HD 视频(1280x720),以及7-9 Mbps 的 full HD 视频(1920x1080)。以今日以MPEG-2为主的SD DVD 为例,H.264/AVC 可以相对制作出 full HD 的视频。
虽然H.264/AVC之压缩效能远较于先前之视频压缩标准为高,但由于其具有相当复杂之编码技术及模式选择,使得其运算复杂度也远高于先前之压缩标准。根据JVT会议文件之评估,H.264/AVC相较于MPEG-4 Part 2,其编码器复杂度约为10倍以上,而译码器复杂度则为3倍以上。
如此高之复杂度将使得H.264/AVC难以使用在具有实时需求之应用上。因此如何在不牺牲H.264/AVC之压缩效能之前提下,降低其运算复杂度使其适于实用化之程度,为目前相当重要之研究方向。此外如何根据网络视频流应用之特点,善加使用
H.264/AVC之各种编码工具及找出最佳之编码模式组合,以发挥其最大效能,也值得加以研究。
在业界动态方面,苹果计算机已将 H.264/AVC 直接整合在 QuickTime播放器中,同时也有数家公司提供H.264/AVC的芯片,预料不久,就可以看到内建 H.264/AVC 的手机、 SET-TOP Box、DVD 播放机等设备了。
AVS视频编解码技术与标准
AVS标准简介
世界各国对重要标准的选择,都是基于本国或本地区产业利益的。对于数字音视频,各国对信源编码标准的选择是有所不同的。我国在选择数字音视频标准时,更应该发挥后发优势,选择有利于产业全面发展、有利于形成具有国际影响的音视频编码标准,AVS正是这样一个标准。
中国作为一个消费电子产品的生产和消费大国,完全应该利用可以自主控制的技术形成自主信源编码标准。更重要的是,MPEG-2标准完成于1994年,近10年技术不断进步,MPEG-2技术已经落后,新的编码技术可以提高一倍或更高的压缩效率。国际上在研究制定新的国际标准MPEG-4AVC/H.264,我国的科研机构积极参与了制定并做出了一定的贡献。同时,组织制定我国自主知识产权的音视频编码压缩标准AVS。
AVS-视频当中具有特征性的核心技术包括:8x8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应环内滤波等。
AVS 的核心技术
1、变换量化:AVS的8x8变换与量化可以在16位处理器上无失配地实现,从而克服了MPEG-4 AVC/ H.264之前所有视频压缩编码国际标准中采用的8x8 DCT变换存在失配的固有问题。而MPEG-4 AVC/ H.264所采用的4x4整数变换在高分辨率的视频图像上的去相关性能不及8x8的变换有效。AVS采用了64级量化,可以完全适应不同的应用和业务对码率和质量的要求。在解决了16位实现的问题后,目前AVS所采用的8x8变换与量化方案,即适合于16位DSP或其他软件方式的快速实现,也适合于ASIC的优化实现。
2、帧内预测:AVS的帧内预测技术沿袭了MPEG-4 AVC/ H.264帧内预测的思路,用相邻块的像素预测当前块,采用代表空间域纹理方向的多种预测模式。但AVS亮度和色度帧内预测都是以8x8块为单位的。亮度块采用5种预测模式,色度块采用4种预测模式,而这4种模式中又有3种和亮度块的预测模式相同。在编码质量相当的前提下,AVS采用较少的预测模式,使方案更加简洁、实现的复杂度大为降低。
3、帧间预测:帧间运动补偿编码是混合编码技术框架中最重要的部分之一。AVS标准采用了16×16,16×8,8×16和8×8的块模式进行运动补偿,而去除了MPEG-4 AVC/ H.264标准中的8×4,4×8,4×4的块模式,目的是能更好地刻画物体运动,提高运动搜索的准确性。实验表明,对于高分辨率视频,AVS选用的块模式已经能足够精细地表达物体的运动。较少的块模式,能降低运动矢量和块模式传输的开销,从而提高压缩效率、降低编解码实现的复杂度。
4、1/4精度像素插值:AVS和MPEG-4 AVC/ H.264都采用了1/4像素精度的运动补偿技术。MPEG-4 AVC/ H.264采用6抽头滤波器进行半像素插值并采用双线性滤波器进行1/4像素插值。而AVS采用了不同的4抽头滤波器进行半像素插值和1/4像素插值,在不降低性能的情况下减少插值所需要的参考像素点,减小了数据存取带宽需求,这在高分辨率视频压缩应用中是非常有意义的。
5、特殊的帧间预测运动补偿:在传统的视频编码标准(MPEG-x系列与H.26x系列)中,双向预测帧B帧都只有一个前向参考帧与一个后向参考帧,而前向预测帧P 帧则只有一个前向参考帧。而新近的MPEG-4 AVC/ H.264充分地利用图片之间的时域相关性,允许P帧和B帧有多个参考帧,最多可以有31个参考帧。多帧参考技术在提高压缩效率的同时也将极大地增加存储空间与数据存取的开销。AVS中P帧可以利用至多2帧的前向参考帧,而B帧采用前后各一个参考帧,P帧与B帧(包括后向参考帧)的参考帧数相同,其参考帧存储空间与数据存取的开销并不比传统视频编码的标准大,而恰恰是充分利用了必须预留的资源。
AVS的B帧的双向预测使用了直接模式(direct mode)、对称模式(symmetric mode)和跳过模式(skip mode)。使用对称模式时,码流只需要传送前向运动矢量,后向运动矢量可由前向运动矢量导出,从而节省后向运动矢量的编码开销。对于直接模式,当前块的前、后向运动矢量都是由后向参考图像相应位置块的运动矢量导出,无需传输运动矢量,因此也可以节省运动矢量的编码开销。跳过模式的运动矢量的导出方法和直接模式的相同,跳过模式编码的块,其运动补偿的残差也均为零,即该模式下宏块只需要传输模式信号,而不需要传输运动矢量、补偿残差等附加信息。
6、熵编码:AVS熵编码采用自适应变长编码技术。在AVS熵编码过程中,所有的语法元素和残差数据都是以指数哥伦布码的形式映射成二进制比特流。采用指数哥伦布码的优势在于:一方面,它的硬件复杂度比较低,可以根据闭合公式解析码字,无需查表;另一方面,它可以根据编码元素的概率分布灵活地确定以k阶指数哥伦布码编码,如果k选得恰当,则编码效率可以逼近信息熵。
对预测残差的块变换系数,经扫描形成(level、run)对串,level、run不是独立事件,而存在着很强的相关性,在AVS中level、run采用二维联合编码,并根据当前level、run的不同概率分布趋势,自适应改变指数哥伦布码的阶数。
AVS的标准名是中国数字音视频编解码技术标准。
Nancy Codec视频编解码技术标准
目前视频领域所采用的压缩技术大都是属于类似 MPEG系列的技术。虽然MPEG-4或H.264/AVC已经获得较高的压缩比,但想在2.5G甚至2G移动通信网路上采用这种压缩方式实现视频传送还是比较困难,所以在一般情况下,移动通信的视频服务主要是锁定在3G普及后才会提供的服务。然而若能马上在2G或2.5G网络上提供视频服务,将可为电信业者带来巨大的利益,也将使移动用户享受更多更丰富的移动服务。Nancy Codec技术正是为此目的而开发。
Nancy Codec 主要是由日本 Office Noa公司所研发之成果,目前采用该技术的,除日本J-Phone与NTT DoCoMo外,还有中国移动通信公司在内的亚洲及欧美各大电信业者,则尚在测试或研究采用的阶段。传统的视频压缩,需要一个高速的 CPU或一个专用的处理芯片,不仅占空间,而且还会增加耗电量。相对来说,像 Nancy Codec 这样的软件解决方案,则不必要有高速 CPU或专用处理芯片,因此能够解决移动通讯市场对于具备视频处理功能之移动化设备的需求。
Nancy Codec 主要系利用 SMSP(Structure Meta Sale Polygon)的观念所独立开发的技术,其原理是将行动影像分割成许多不同形状和尺寸的模型,然后进行压缩,因采用全新的简易四则运算法则,不需要进行移动侦测(Motion Estimation)与离散余弦转换(DCT) ,所以运算量小、传输速率快。
Nancy Codec是具有相当优势的一种压缩技术,因为Nancy Codec是以软件实现视频压缩,所以硬件处理能力只需MPEG4的10%,而运算速度又比MPEG4快1倍,压缩率又为MPEG4的十分之一,因此利用现有移动通信网路即可传送视频。目前已有多家公司推出支持 Nancy Codec的DSP芯片,包括德州仪器、爱普生等。另外背后还有众多电信业者的支持,包括日本 J-phone和中国移动等。然而虽然Nancy Codec在发展应用方面确实具有优势,但它也存在一些问题:由于日本OFFICE NOA公司独家拥有这项技术,因此在技术上不可能很开放,所以并不利于该技术进一步的发展,另一方面,有可能因为各方利益冲突而造成推广应用上的困难。
AAC+视频编解码技术标准
由于APPLE iPod的带动风潮,MP3与MPEG-4 AAC(Advanced Audio Coding)已成为数字音乐界的天王巨星。这几年MPEG组织又再接再厉,完成了 MPEG-4 High-Efficiency AAC , 也就是俗称的AAC+的最终规格。AAC+大约相当于AAC两倍的压缩率,还能够保证高音质呈现。 在AAC +中主要组合了MPEG-4 AAC以及由Coding Technologies所开发的SBR (Spectral Band Replication)技术。SBR扩大了播放频宽,能够以AAC一半的压缩率重现同等音质。例如使用AAC+只要128Kbps就能有5.1多声道音质;只要48Kbps就能有相当于CD的音质;只要32Kbps就能有立体声音质。另外SBR技术可以与多种压缩技术组合 ,例如SBR技术与MP3组合就形成了所谓的MP3 Pro技术 。在英国,Siemens推出搭配无线音乐下载服务的音乐播放器,称为DRM Music Player,已支持AAC +作为下载的音乐格式,同时随机附送了64MB SD 记忆卡,若以 AAC + 作为音乐格式,最多可储存约 64首歌曲。
未来的视频编解码技术趋势
Scalable Coding视频编解码技术标准
在因特网、无线网络与异质网络的环境下,频宽变动往往会造成视频数据无法传送 (频宽太小)或频宽浪费的情况(频宽大但传送数据少造成画面质量差)。
目前的解决方式是预先备妥各种频宽速率的数据,根据网络的情况再作动态的调整。但因为每一个影片都需要数个备份,这种方式会造成储存资源的浪费。新一代的压缩技术开始考虑采用可调式压缩(scalable coding)的方式,希望能有效对抗频宽变动的问题。 此技术主要特色是达到encode once,decode many times的目标。最高的理想是,只需一种压缩编码,就可以应付不同的频宽使用者,且视频质量则因频宽不同,而有不同的对应质量,使用者在收看网络视频节目时,可摆脱因频宽变动所造成的画面暂停、破损、甚至无法收看的窘境。
在MPEG-4 2002 修正版 (ISO/IEC 14496-2:2001/Amd 2:2002)中的Streaming Video Profile 就增加了FGS (Fine Granularity Scalability)的可调式视频压缩标准,FGS采用位平面编码(Bit-plane Coding),所产生的加强层(enhancement layer)比特流可以在任意位置作切割,具有良好适应频宽的能力与最细微的可调分辨率,并能抵抗因特网上封包遗失的问题。不同使用者可依照频宽与本身译码器的运算能力,选择适当的数据量来译码,希望达到有多少频宽就拥有多少质量的目标。
然而这几年FGS在产业界的发展并不十分理想,主要原因是该方法过于强调 可调式的弹性却造成视频质量普遍不佳,因此无法取代现有非 可调式压缩标准的地位。然而追求 可调式压缩的努力一直持续,只是战场转到了MPEG-21的标准制定会议中,目前scalable coding 仍在MPEG-21制定中,约在年内会完成制定。
Universal Codec视频编解码技术标准
从上述的描述可以发现目前存在的压缩技术相当多,几乎到了泛滥的程度 。然而 到目前为止,所有压缩标准的架构都差不多,在观念上,应该可以设计一个“universal codec”,能同时支持MPEG-1/2/4、H.264/AVC、WMV-9、AVS等压缩标准。
因此在MPEG第69次会议(2004/7)明确研拟制定universal codec标准的计划,希望能设计支持多重压缩标准的泛型单一编码,并预留产业客制化与最佳化的空间,以提供有别于微软Windows Media Platform的另一解决方案(MPEG真的将微软视为主要的对手)。该计划如果施行顺利 ,不论对IC设计公司或系统厂商都是一大利多,因为不用再为不同的压缩方式伤脑筋,而且许多开发过的组件也都可以重复使用。