从技术方面来说,图像信息的自动解释关系图像系统最核心的问题——图像信息的利用水平。可以说:图像信息的自动解释是监控系统智能化标志,是现代视频监控的基本特征。
图像信息的自动解释有两个基本途径:一是图像识别,主要利用图像信息的空间分辨能力,实现个体的身份认证;二是图像内容分析、主要是利用图像信息的时间分辨能力,理解图像,进行目标行为的分析。
图像识别
主要是指通过对一帧图像中指定目标的特征识别,实现个体身份认证,典型的实例是人脸识别。研究证明,人的行为也是一种生物特征,如步态,眼部动作等。对人步态的分析可以用于个体的识别,但它是通过对一段图像序列的识别来进行个体身份的认证。无论什么方式,图像识别都有要求两个基本条件,一是定义特征、一是建立一定数量的样本数据库。定义特征,选择具有唯一性和相对稳定的特征来表示个体,如用人脸上的标志点来形成特征矢量。样本数据库,按特征的定义采集一定数量(根据应用)的样本特征,建立样本库。
图像识别的基本工作方法是:将现场采集的目标特征数据与样本库中的数据进行比对。这就这要求现场采集的特征数据和样本库数据具有相关(可比)性,因此、必须建立一个适当限制的应用环境,才能保证系统正常的工作。
个体身份认证是安全系统最迫切的要求,近年来、有了大量的成果,也有了初步的应用,主要有两种方式:第一是验证,识别监控目标,确认目标的身份及正在发生行为的合法性。是安防系统的功能和典型应用;第二则是识别,将现场采集的特征与样本库进行比对,确定目标的身份,以发现事件的相关线索。是侦察工作的典型应用。系统要建立海量的样本数据库。通常的视频监控系统达不到上述应用的环境条件。
图像识别系统包括:图像输入、图像的预处理、特征的提取和图像的解释(识别)等技术环节和设备。其关键技术或难点在于实现系统能在一种适当控制的环境下,针对移动目标实时地运行,这些目标通过静止摄像机可能会产生大小不同、角度不同及光照效果不同的图像。并在各种可能的非最佳条件下进行识别,如由于年龄、面部表情、配饰(眼镜、帽子)及可能的伪装(化妆)造成图像的差异。就要求系统采用适当的图像输入方法和预处理技术,以保证图像特征有效地提取,样本的生成和数据库的建立。
图像识别的方法基本上分为统计方法和结构分析两类,前者是以数学决策理论为基础,建立统计学的识别模型,指纹、掌形的识别多采用这种方法,其特点是稳定、但很少利用图像本身的结构关系。后者则主要是分析图像的结构,它充分地发挥了图像的特点,但容易受图像生成过程中噪声干扰的影响。
[nextpage]
图像内容分析
由于通常的监控系统不适合于进行图像识别,监控系统的智能化就必须寻找新的途径。图像内容分析就成了智能监控的切入点。图像内容分析,自主的定义(简单)特征、不与原始输入相对比;通过目标状态和行为的分析,理解图像内容(判断正常/不正常、预测趋势);通过图像关联,实现目标的识别。
图像内容分析分为两个层次:首先是视频探测,视频探测在模拟电视技术中就已得到了应用。在一幅上开图像一个窗口,检测其亮度电平的变化,就可以实现探测。通过一系列窗口的监测其亮度电平的变化,就可以实现运动探测。但它不是真正的视频探测,因为它不能确定目标。在数字视频基础上,首先确认图像中的探测目标,然后再进行其行为的分析,判断出图像中是否出现了“不正常”情况,及时发出报警。是真正的视频探测,它可准确地判断事件,实现真实探测。视频探测还非常适于空间的多维探测和多参数探测,同时地处理来自不同方位摄像设备的图像信号,可以作到对目标多方位的监控,实现对特定空间和目标的完全封闭;其次是视频语义解释,通过阅读一段图像,理解图像的内容(视频语义)并把它表达出来,它描述的不是图像本身,而是图像的结构及表现的内容、情节,既视频语义。根据语义可以对图像信息进行标引,在记录图像的同时,生成镜像的标引文件,然后可以通过标引文件对存贮信息进行快速和准确的检索;进而实现图像信息间的关联,图像信息与声音、图形、文本信息之间的关联,这是图像信息深化应用的前提。
图像内容分析研究的过程分四个阶段,产品和应用也分四个层面;第一是将(运动)目标从视频图像中分离出来。并能在简单环境下(单目标、背景单纯)对目标分类;第二是在简单环境下对目标进行行为分析,判定其运动的方向、方式、目标的复合或离散,发现和告警异常的行为;产生目标的运动轨迹,并能进行目标的自动跟踪;进行目标的统计、关联、过滤、趋势预测等。第三是在复杂环境(既通常的视频监控环境)下实现上述功能,并实现(单源、多源)图像的关联;第四是实现视频语义的解析,通过对一个图像序列的理解,做出视频语义解释。目前已有了一些成果,但尚不具实用性。其中第三个阶段是技术实用性的关键,达到了这一点,系统才具有应用价值,目前大多数产品还达不到这一阶段。
视频的语义解释是内容分析的最高境界,它表明机器具有了与人一样的理解图像的能力,但具有人所不能达到的效率,目前还达不到这个程度。关于图像结构和内容的描述还需要目视解释的帮助。前三阶段的工作可称为视频的半语义解释。主要是判断图像中是否出现了不正常的情况,还不能准确、充分地理解图像内容。