近日,东芝开发出了可高速对照大数据、大规模媒体数据注1的数据处理技术。此技术以高维矢量注2表现人物的面部、销售数据等,通过预先将类似的矢量群索引化处理,可实现高速对照。利用此技术从1000万张人物的面部图像数据中提取指定人物的实验注3中,仅8.31毫秒(1毫秒=1/1000秒)即可完成处理。比传统的处理速度高出约50倍注4。
近年来,大数据的分析、活用技术不断用于机械学习或机器故障预测等领域,大幅提高了故障的预测精度,给人们的生活带来诸多便利的同时,分析的数据量也比人们预想的更快实现了大容量化、大规模化,寻求计算处理的高速化需求日益凸显。
东芝开发的高速对照技术,结合了“矢量符号技术”(以尽量维持矢量间的距离的状态进行压缩)、“矢量索引技术”(不计算矢量间的距离而是预先索引化处理距离比较近的矢量群)、“管道搜索技术”(将粗略搜索和详细搜索进行阶段性组合)这3项技术,从而实现了计算处理的高性能化、高速化。其中,“矢量索引技术”是东芝最先开发的技术,摆脱了逐一对照咨询数据的矢量,而是对照已经过索引化处理的类似的矢量群,使得处理速度大幅提高。
东芝以模式挖掘注5、媒体识别的强化注6、大数据分析注7三个领域为中心,将此技术向解决方案服务领域推广应用。例如,可通过在大范围内设置的监控摄像头的影像瞬时发现指定人物,可使用机场等的水域监控高速对照国际通缉犯的人脸照片列表注8。
今后,东芝还将把此技术应用于深度学习,扩大与提高人工智能等相关的应用领域,为企业创造全新的价值。
此外,东芝已将此技术与向外扩展型数据库“GridDB®”组合,建立了可高速处理大数据、大规模媒体数据的世界首个适用高维矢量对照的数据库,计划将于2016年制作成产品。
注1:例如,监控影像、广播节目档案、客户服务中心储存的语音记录、Web文本等大规模媒体数据。
注2:并非二维(平面)或三维(空间)的矢量,而是拥有数百~数万等维数的矢量。
注3:使用拍摄的5800人的面部共1000万张图像,以98%或以上的面部识别精度为限制条件进行实施。
注4:依据东芝独立调查获得的速度比较值。
注5:模式挖掘(类似模式搜索)
可对照监控摄像头等的影像的広域监控(追踪需要监控的对象人员等)
配置场所可以是车站、机场、高速道路等的闸口(验票)、主题公园、娱乐场等的各监控点、从车站到运动场(音乐会、体育)的移动路线监控、ATM、接待窗口、售票机等。
注6:媒体识别的强化
国际通缉犯的检查(在机场等场所的监控强化等)
注7:大数据分析
对学习和预测自动进行数据分析云服务。只将销售数据、机械信号数据等需要分析的数据上传至服务器,无需另行配置分析管理等人员,可自动获得分析结果。
注8:将1千万人的国际通缉犯的人脸照片列表和通过安全门的人物进行对照,使用其它公司的类似技术需要约20秒,使用本技术则仅需约0.68秒便可进行对照(依据东芝与系统整体处理时间相关的理论估计值)。