据英国《金融时报》报道,微软目前已经悄然删除其最大的公开人脸识别数据库——MSCeleb。
MSCeleb数据库2016年建立,拥有超过1000万张图像,将近10万人的面部信息。微软描述其为世界上最大的公开面部识别数据集,并用于培训全球科技公司和军事研究人员的面部识别系统。据了解,数据库中的面孔来自公众人物,但许多人并没有授权微软使用自己的面部照片。相反,微软是通过“知识共享”许可来抓取图像和视频的。根据“知识共享”许可,你可以将照片用于学术研究,但照片中的人物并不一定授权许可,而是拥有版权所有者授权。
微软技术与研究院首席研究员 / 研究经理张磊博士曾对外表示,MS-Celeb-1M 的目标是识别百万人脸,是计算机视觉内最大规模的分类问题,并且其中一个人物对应一个 entity,绑定了知识库,并且知识库中提供了每个人的职业,性别等等丰富的信息,从而解决了人物重名的问题,可以从识别达到认知。
虽然在微软的认知中,最开始这个数据集是面向学术界做的,但后来,这一数据集被许多工业界的同行所使用。根据相关的引文资料,MS-Celeb-1M 数据库已经被多商业机构所使用,比如说 IBM、松下电气、阿里巴巴、辉达、日立、商汤科技、旷视科技等,甚至有消息称,也有相关的军事研究人员采用了这一数据库来训练面部识别系统。
“这个网站是用于学术用途,它是由一位已经不在Microsoft工作的员工运行的,并且已被删除。”微软称。不过,即使MSCeleb已被删除,其内容仍可以从网络上下载获得。“你不能让数据库消失。一旦你发布它,人们下载它,它就存在于全世界的硬盘上。”发现MSCeleb数据库侵权问题的柏林研究员AdamHarvey在接受媒体采访时称。
值得一提的是,伴随着微软删除了 MS-Celeb-1M 数据库,另外两个学术单位也删除了它们旗下的类似相关数据库,包括由杜克大学研究人员建造的 Duke MTMC 监控数据库和斯坦福大学的 Brainwash 数据库。