四、人脸识别的真实现状
接下来我想给大家讲讲人脸识别的现状和进展。
这里面有一种分裂,怎样一种分裂呢?
一些人工智能公司宣传,他们一般都会把人脸识别的性能吹得非常悬,说错误率已经达到亿分之一的程度等等。虽然这是事实,的确有时候我们发现有一些识别错误率已经低于亿分之一,但这是有前提的,譬如说静态人脸识别:如摆拍等。
还有一种场景是门禁的应用,人们为了过一个通道,然后就盯着摄像头,这时候成像条件都很好。但是对安防而言,更多时候被观测的对象没有意识到自己被观测,它的角度也不是很理想,离相机也比较远,光照也比较复杂。而且整个目标在运动中碰到照片时,它的人脸识别结果也完全不一样了。
很多公司认为人脸识别已经做得很好,但另一方面,如果大家去调查一下如果使用了人脸识别,尤其是使用动态人脸识别的客户,大多数客户都认为误报率太高,而且高到基本上这个系统就没有办法使用。
1、是人脸技术不好,还是大家在撒谎?
今天趁这个机会,我也想非常坦诚地跟大家分享一下这里面的原因。到底是人脸识别技术还不够好,还是大家在撒谎。
做人脸识别它的优点是速度快,一张显卡每秒钟可产生几百张脸的特征,完成数千万张脸的比对,这个目前已经可以做到了。它的成本也低,使得这项技能可以快速复制、大规模地部署,性能很稳定且可持续提升。人工智能的缺点是应对复杂问题应对能力差,除此之外是对环境变化的适应能力弱。
人类的智能跟人工智能相比,几乎是完全相反的。
人类智能的优点正好是人工智能的缺点,人类对复杂问题的应对能力和对环境变化的适应能力很强,但缺点就是速度慢、成本高,比较难快速复制、不大可能大规模地部署、性能也不稳定(容易受到精神状态的影响)。
2、1比1的人脸验证
我们来看一下人工智能的不同应用,先介绍下1:1的人脸验证。
在金融支付领域里面,有些公司开发的软件帮助客户去验证用户的身份。这类应用本质上是在回答一个问题。客户的摄像头拍一张照片,然后将照片传到后台,后台知道验证的对象是谁,并且有验证对象的身份证照片。那么它要回答的问题是“这两个人是同一个人吗?”,答案是“是”或者“否”。所以总共回答这么一个问题。
3、1比N的人脸识别(静态人脸比对)
我们再来看一下1:N的人脸的识别,也叫静态人脸对比。
假如客户选择一张照片,然后他拥有N个人的对比库。举个例子,比如在某个省的公安厅,这个省有5000万个有身份证的公民。这时候警方看到一个嫌疑人想调查这个人的身份,这个人是谁?
在做这件事情的过程中,事实上人脸识别就要回答很多问题。这个人是张三吗?这个人是李四吗?是王五吗?然后它要回答N个问题,可能还有一个最困难的问题也就是第N+1个问题:这个人可能谁都不是。这就叫静态人脸比对。很显然,与人脸验证相比,静态人脸比对就是更为复杂的问题。因为它总共要回答的问题总数是N+1个,当这个N比较大的时候,问题回答的难度和出错误几率就大大提升。
但静态人脸比对使用的频率比较低,只有当客户要做一次搜索时它才会使用。它使用的场景允许用户参与交互和确认。简单说就像一个搜索引擎,我在搜索结果里挑一个我认为对的,或者是我把搜索结果呈现的前几名看上去都很像,分别调查后能够快速帮客户缩小调查范围。
这种产品在过去一、两年内的推广也比较快,而且可用性相对较高。
4、M比N人脸识别(动态人脸比对)
我们再往下看来看一下M比N的人脸识别,通常这个叫动态认识。
何为动态人脸识别?就是客户安装的摄像头每看到一个人后,就在一个库里去比对这个人是谁,“M”代表的就是摄像头,或者网络里所有摄像头抓到的人脸数目。“N”就是对比库中的目标数目,抓到的每一张脸都得“问”一遍:这是张三吗?是李四吗,那真的是王五吗?然后对于这个人你要问N+1个问题。对于看到所有M个人,问题的总数也就是M×N+1个。而且动态人脸使用频率非常高,因为它是一个全自动体系。
以北京地铁站为例,我听说北京1000多个地铁站里面平均每站都有上百个摄像头,如果这里面100个摄像头每个地铁站流通8到10万人是很常见的,可能在一些比较繁忙的地铁站有上百万人。
对于看到的每一个人都要回答N+1个问题,如果这个N是一个很大的库,比如是一个拥有十几万人的全国逃犯数据库,这就是一个天文数字。而且在这个使用场景中,它不存在用户交互,客户期待你最后产生报警,而且这个警报是值得信赖的。
我们先来看一下这个问题:
一台动态人脸抓拍机每天产生以下问题:首先假设每个相机每天看见1万张脸,在很多公共场所这并不是一个很夸张的假设。
我们假设对比库里有1万个目标,这可能对公安来说也不是一个大的目标库。如果基于该假设的话,这个相机每天要回答的问题就是一亿零一万个。如果人工智能每回答100万个人脸比对问题就犯一个错误,那么每一天在每一台相机上就会犯100个错误,也就是产生100个误报或者漏报。
我刚才假设每回答100万个问题才会犯一个错误,其实也是非常夸张的假设,因为在动态人脸识别里,很多时候人的面孔角度是不理想的,分辨率也不一定很理想,光线可能也不是很好,还可能有运动模糊。
这种情况下,如果哪个公司真的可以达到百万分之一的错误率,我相信已经非常优秀。我们想象一下,如果一个大客户装了1000台人脸识别相机,坦率来讲1000台量也不是很大,跟今天城市里已经存在的摄像头数量相比并不多。
这时候系统每天要回答1000亿个问题,如果人工智能回答100万个问题就会犯一个错误,那么客户每天就会收到100万个错误,也就是100万个误报或者漏报。我们想象一下当一个客户每天会收到100万个报警时,他会怎么办?那它肯定会崩溃的,因为这个系统根本不能用。而1000台1万个库的目标,每个摄像头每天看1万个面孔,这些假设也根本不是一个很苛刻的假设。
5、人脸识别解决公共安全问题仍然微不足道
我们能够意识到人脸识别尽管在过去几年有着巨大进展,可以在金融领域做身份验证,但它对解决公共安全问题来说是仍然微不足道的。
这个事实说明人脸识别技术不够好吗?我觉得也不尽然。人脸识别技术今天已确定超越人类。科学实验数据称,正常人最多能够记住500张脸,有一些销售等职业以及特异功能拥有者记住5000张脸也已经是极限了。
动态人脸识别的问题假如想象有一天在北京有100万个动态人脸识别的摄像机,而北京有3000万人口,在这种背景下,它每天产生的问题高达数以万万计。在这种情况下,发生错误的机率即使再低,但乘以这么大的基数也会产生海量的误报。所以这个问题的规模非常残酷。
在这种情况下我们该怎么做呢?