视频分析与识别(video analyzing and recognition)技术指的是使用计算机从视频中通过运算和分析,提取视频中的有用信息的一项技术,也就是对视频的“内容”的提取和理解。就好像人看到某一段视频中“有一辆车”、“有一辆白色的车”、“有一辆白色的捷达车”、“有一辆白色的捷达车正在打着右转向灯准备向右转”。对于人来说,这段视频是有意义的,是包含了一定信息量的,并且人可以智能化地提取这些信息,获取“有一辆白色的捷达车正在打着右转向灯准备向右转”这一信息,而且这一信息包含了“车、白色、捷达、转向灯、开灯、开右转向灯、准备右转”这一系列的子信息。而视频分析与识别技术则是让计算机来完成这一信息提取和理解的过程,通常也可以简称为“视频分析技术”。
这里要特别指出的是两点:一是有时候“视频分析技术”也称为“视频图像分析技术”,为什么呢?这是因为视频本身是由一系列连续的图像组成的(这里不讨论视频压缩技术,仅指视频信号通过解压缩还原后的帧图像序列),对于视频内容的理解,则建立在对这个“图像序列”的分析与识别上,因此,二者是等同的,是同样的含义;二是很多时候视频中的信息都是十分丰富的,就如上面提到的这段视频,除了这辆白色捷达车之外,也许还有另外的信息,比如“路边上站着的是一位穿着深蓝色风衣的中年男人戴着墨镜抽着一根烟”,对于同样一段视频,我们关注的对象不同,需要提取的信息也就不同,人的大脑可以处理很复杂的工作,可以同时将视频中的大部分信息量一次性提取出来,而对于计算机来说,其智能化水平还比较低,也许只能有针对性地提取部分信息,比如只是提取车的信息或只提取人的信息。但无论是提取什么样的信息,都属于一种“视频分析技术”。
视频分析技术
视频分析技术范围很广,前面说了,只要是从视频中通过运算提取有用信息都可以称为视频分析技术,因为都是属于对“视频内容”的“分析、识别和理解”,从这个角度来说,目前已经比较成熟的并已经形成产品在实际项目中得到应用的技术都属于“视频分析技术”,例如车牌识别技术、视频检索技术、视频人脸检测等,因为这都属于对视频中的有用信息的提取,提取车牌号码,提取视频中的文字或特定图形等。严格地说,这些技术都只是视频分析技术中的比较简单的内容,只不过由于这些技术已得到较好地研究和应用,有了一些专门的称谓,才单独提了出来,而似乎不再被归纳到“视频分析技术”的范畴。
由于习惯上的原因,当前的视频分析技术一般特指从视频中目标运动行为的分析、提取和识别。其所指的含义比之字面意思的含义已大幅缩小。
技术研究方向
当前对于视频分析技术(特指缩小了定义之后的“目标运动行为的分析、提取和识别”这一概念)的研究,一般来说又分为两个主要的研究方向:一个研究方向是以目标整体的运动轨迹作为研究目标,提取运动目标的运动特征或其本身所具有的特性。这一研究目标不一定是特指人,而是可以以任何运动物体作为研究对象,比如人、车辆、动物、飞机坦克等军事目标等等。而其行为指的也是研究对象的运动特征,例如该目标是否朝特定的方向运动,是否以特定的轨迹运动,是否越过某一警戒线或者进入某一警戒区域、是否排队、是否产生了聚集或拥堵、是否有尾随现象、是否有徘徊行为等等。这是一个重要的研究方向,并在市场上有相应的产品出现(尽管还不十分成熟)。其特点是将目标物体作为一个整体来考察,提取其在大场景范围内的运动特征。[nextpage]
另一个研究方向则以目标的局部部分的运动为研究目标,提取其局部“肢体语言”特征,如视频的手语识别,步态识别,表情识别,或者判断其是否在完成某种行为,如打电话,放下一个包,从某个地方取出或入下一件东西等等。此外,公共场所或文物古迹范围是否有涂抹蹬踏行为,体育运动里的运动姿态或运动动作是否最佳,甚至于舰载火炮炮管的旋转运动曲线的研究,所有这些都是属于这一方向。这一研究方向通常针对的是小视野场景的近景视频进行研究,而且其研究对象只是属于目标物的局部部分,如分析人的手、脚、头的动作,其最核心的实现步骤通常包括对研究对象的三维建模。这一研究方向由于要分析的动作比较细致和具体,因此大多属于那种针对某一具体需求的开发和应用,比较难以出现普适性略高一些的成形产品。
市场发展状况
不容否认,对于视频分析技术的研究,但由于其算法的复杂度以及目标行为的多样性等原因,发展一直比较缓慢。而相对起来,由于国际上反恐形势的需要,而第一类研究方向可以用在监控系统中实现异常状态自动报警的功能,具有实时报警、缩短异常事件反应时间、减少损失、增强监控系统威慑力等特点。国外在视频分析技术这一领域的研究、发展和产品化比之国内的研究单位来说,研究成果具有一定的领先性。
虽然针对不同的应用需求,产品有着不同的目标市场和目标用户,其功能也不尽相同,但其实现过程中很多的核心技术或实现思路却是一样的,都需要解决一些共同的难题,然后再针对具体需求来增加一些特殊的处理和运算,使之精度更高,速度更快,准确率更高。
以第一类的研究方向,即以目标整体的运动轨迹的提取和分析为例,虽然其处理的技巧或方法各有不同,各有特色,但从整体的解决方案框架设计来说,都是先获取背景,然后提取前景目标,再分析前景目标的运动轨迹曲线,最后由该轨迹曲线的特征来实现对于异常行为的分析。在这一过程中,必然要涉及到的是对于光照、阴影、抖动、模糊等异常状态的处理和适应,使之能适应室外光照变化或室内的灯泡强弱变化;适应各种阴影,包括外界阴影和目标物本身的阴影;适应摄像头的抖动和树叶、水波、光的折射等造成的抖动;适应焦距不准或是雨雪雾天造成的视频的模糊等。在这些不利的外界环境条件下仍然能够准确地提取目标轨迹,分析目标行为,能准确报警并尽可能减少虚警误警,保证自动监测的有效性。在这一同时,又须尽量考虑到运算的速度,算法的复杂性,以保证报警的及时性。只有这样,才可能将所开发的视频分析技术转化为可以实际应用的产品。
事实上,目前在市场上已出现的智能视频分析技术产品仍处于一个很低级的阶段,只能分析几类较为简单的异常行为,其光照环境适应性等指标也处于较低的水平,可以说,其“智能化”程度仍然比较低,离用户所期望的理想效果仍然差得比较远,但并不是说这些产品就不能用了,仍然是可以用的,问题在于怎么用,如何用。
产品功效发挥
那么,在目前的仍处于比较“初级”智能化水平的视频分析技术产品应该如何使用才能发挥其功效呢?可以从三个方面来考虑:
其一:产品应用定制化,这里的定制不一定是指针对每一个应用专门开发出一套算法(虽然这么做从理论上来说应该是效果最好的,但却不切实际),而是说针对某一具体的应用场景和应用目标,应该尽可能多地设置一些参数,包括规则参数甚至于算法的内部参数,使算法能在该环境中得到最佳的性能。能用性强,到哪都能表现良好的产品不是没有,只不过目前来说暂时还未出现,如果相对具体应用有针对性地设置具体的参数,性能就会大有提高。
其二:在比较特殊的场合应用。如对于目标运动轨迹的监测与报警类的视频分析技术产品,其中一个关键环节在于对于背景的提取。当视野范围内活动目标(前景)较多时,提取背景将存在较大的误差,不利于最终的报警准确率,那么可以选择前景目标较少的场合来应用。如这种产品在天安门这种人潮涌动的环境肯定是效果比较差的,但如果用在军事禁区或是银行金库门口,正常情况下本来就是极少活动目标出现,那么它的效果将会明显好得很多,同理,用在城市道路监控中的效果也必然不如用在高速公路上好。
其三:可以应用在报警准确率要求不高的场合。如果某些应用场合要求报警准确率很高,一旦出现误警或漏警都会造成很严重的后果,那么对于产品的性能要求就会很严格,这是不太适合目前这类智能化水平还不太高的产品应用的。只有当使用时只是需要自动监测的辅助功能,允许一定的误报或漏报,才可以使用到目前已有的视频分析技术产品。