安防监控,仅仅将画面记录下来只是第一步。当事件发生后,准确而快速地找到所需监控工来完成,浪费了检索人的大量精力。治安管理者迫切需要一种能够快速查找视频信息的方式,加快办案速度。在基于内容的视频检索技术、存储技术以及智能分析技术共同提升的环境下,海量视频检索离安防渐行渐近。
2011年6月16日,南京一骑电动车年轻女子被一辆货车超越时刮倒,22天后,在对事故地点附近学校、商场、网吧等单位的监控录像进行分析,并调取附近街区5万多张监控照片比对后,警方锁定肇事车辆;2011年7月13日,福州何先生乘坐出租车时,将自己的LV旅行包遗落在出租车上,内有现金2.1万元。派出所民警接警后,通过视频查到何先生乘坐的出租车,并于15日帮他找回了丢失的名牌旅行包;2011年7月27日凌晨,遵义一驾驶员驾车撞死行人后逃逸,警方调取了沿途视频监控录像,并在长达144小时的录像中,通过查找、分析和判断,锁定逃逸车辆……短短一月有余,诸多案件的侦破都利用了监控视频,可见查找监控视频已经成为警方破案不可或缺的一个手段。
随着平安城市等工程的推进,监控摄像头已经遍布大街小巷,这为大多数案件留下了影像资料,给警方破案带来了很大的便利。但是,有了相关视频不等于就找到了目标信息,查找视频、分析视频的工作常常会耗用警方大量的时间和人力。能否在海量视频中更方便、更省力地查找到相关信息呢?这有待视频检索技术的进一步发展。
[nextpage]
视频检索技术当前的发展
检索技术源于互联网发展需求。基于文本索引的方法进行检索是当今最成熟的信息检索技术。各类搜索引擎,如Baidu、Google、Bing以及Yahoo等都是以此技术为基础的。随着网络带宽不断的提高,人们可以更加快捷地将自己采集到的各种多媒体信息进行共享,或者进行多媒体信息的交互,越来越多的信息通过视频等多媒体的形式展现在互联网中,这对以图像、视频为代表的多媒体信息检索技术提出了越来越高的要求。20世纪90年代初,国际上开始了对视频方面的检索研究。区别于文字信息检索,图像视频的检索是建立在图像视频内容分析的基础上,所以常称之为基于内容的图像视频检索。1992年,“基于内容的视频检索”一词开始使用。十多年来,视频数据在获取、存储、操作及传输技术方面取得了重大的理论突破和技术进步。
基于内容的视频检索技术是针对音视频这类非结构化数据,使用了视频分割、自动数字化、语音识别、镜头检测、关键帧抽取、内容自动关联、视频结构化等技术,以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统及人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。
基于内容视频检索技术原理
视频数据按照由粗到细的顺序可以划分为四个层次结构:视频(Video)、场景(Scene)、镜头(Shot)和图像帧(Frame)。由于一个镜头内的相邻帧间的变化不是很大,它们之间的特征差值会限定在某个阈值范围内。而在镜头突变时,突变点前后两个相邻帧在内容上显示会有很大的变化,如果特征差值超过了给定的阈值,则意味着出现一个分割边界。镜头的关键帧就是反映该镜头中主要信息内容的帧图像。将各镜头检测出来后,对每个镜头可提取关键帧,并用关键帧简洁地表达镜头。关键帧数目的确定是关键帧提取中的一个重要问题,其确定方法可以根据镜头内帧的差异进行统计,求出其方差,用方差来衡量镜头视觉内容的复杂程度。方差越大,该镜头提取的关键帧数就越多。
从内容上对视频进行搜索,其特点包括:第一,直接从媒体内容中提取信息线索;第二,基于内容的检索是一种近似匹配,这一点与常规数据库检索的精确匹配方法有明显的不同;第三,动态特征提取和索引建立可由计算机自动实现,这避免了人工描述的主观性,也大大减少了工作量。基于内容检索时,根据媒体特征进行相似性匹配检索的媒体特征有:颜色、纹理、轮廓、形状、空间约束、动态、概念、结构描述及其他的图像信息。