人脸识别技术已经从如何识别面部特征进展到必须判定目标物体之间的‘意图’,了解目标物之间的支配或关系变化情况。
“人脸识别技术已经从如何识别面部特征进展到必须判定目标物体之间的‘意图’,了解目标物之间的支配或关系变化情况,而背后的支撑是来自于近年来获得巨大进展的
深度学习和人工智能技术,”香港中文大学教授林达华指出。
投入视觉技术研究多年的林达华日前在深圳市机器人协会主办的服务型机器人技术与应用大会中指出,深度学习技术正在驱动人工智能迈向成熟,落地到人脸/图像识别、虚拟现实(VR)、机器人、无人车和语音理解等多个行业应用中。
过去,林达华和他的研究团队所专注的视觉技术大多运用在人脸和图像识别领域,但随着技术进展,视觉技术正在探索更广泛的计算机应用领域,这些进展主要得益于近年来发展快速的深度学习技术。
过去1~2年来,深度学习成为热门词汇,与人工智能紧密结合,在消费、计算、安防等领域中受到大量关注。事实上深度学习的研究已经持续数十年,但2012年,这个领域出现了突破性的进展。
美国斯坦福大学曾经组织一场比赛,目标是让参赛者从1,000万张照片中将每张照片分到一千个类别里。在2012年之前,这个竞赛的错误率一直停滞在26%,几乎没有进展,林达华说。但2012年多伦多大学的一个研究团队设计的八层深度网络,将26%的错误率降至13%。这个结果震憾了整个计算机视觉研究领域,此后深度学习的研究开始从学术界的研究单位向业内扩展,从谷歌、微软到中小型企业都投入大量精力进行研究。
自2012年以来,许多大公司和研究团队将精力放在深度网络压缩上,这让深度网络的层次呈现指数级的增长。2014年谷歌提出了22层的新网络;2015年微软则提出更有效的方法来训练深度网络,将网络深度从22层提高到169层。而几个月之后,林华达和他的研究团队在今年提出了接近800层的网络模型。
林达华指出,导致深度学习成功的因素来自二方面:“首先是对大部分人工智能的模型来说有参与口径,要发射出去飞上太空要两个基本要素,一个是需要燃料,另外一个是需要有引擎,能够把燃料转化为动能。作为类比,对人工智能来说,我们的燃料就是数据,最近几年随着大数据的普及,各行各业产生了大量数据,这些数据为人工智能的起飞提供了燃料,深度学习看成对人工智能新一代的引擎。它可以说是非常革命性的提高了对燃料的触觉能力。”
数据驱动了深度学习的大幅度进展,与2012年相比,目前高达800层的网络模型的表达能力也大幅提升。但这么复杂的网络需要强大的超级计算机集群才能做训练。“过去我们训练数百层的大型网络时,要使用上万个处理器内核跑一个星期,”林达华说,但这种方法无法让深度学习网络落地到商业应用中。
林达华和他的团队通过许多手段对网络进行检测和压缩,去除重复的神经元及没有用的连接。通过整合多种技术,目前已经能将超大型的深度网络压缩1,000倍,相当于能将这样的网络用FPGA来实现,与嵌入式GPU相比,每瓦特性能提高5倍,而成本则大幅降低。
深度网络压缩,可将超大型深度网络压缩1,000倍。 (来源:香港中文大学 / 林达华 )
通过在芯片上实现技术方案,大规模降低成本,象征着该领域的技术已臻成熟,终能落地到行业甚至消费应用领域。“深度压缩技术将推动嵌入式深度视觉的技术的发展,我们已经有些成功的原型,能够压缩大型的、顶级性能的网络。”林达华说。目前的人工智能技术已经走出实验室,未来几年这些技术还将对整个产业界产生更大的冲击。
免责声明:本站所使用的字体和图片文字等素材部分来源于互联网共享平台。如使用任何字体和图片文字有冒犯其版权所有方的,皆为无意。如您是字体厂商、图片文字厂商等版权方,且不允许本站使用您的字体和图片文字等素材,请联系我们,本站核实后将立即删除!任何版权方从未通知联系本站管理者停止使用,并索要赔偿或上诉法院的,均视为新型网络碰瓷及敲诈勒索,将不予任何的法律和经济赔偿!敬请谅解!