Facebook近日宣布开放Detectron,即该公司基于深度学习框架的计算机视觉对象检测算法平台。该公司表示,开放项目的动机在于加速计算机视觉研究,Facebook团队正在使用该平台开发各种应用,包括增强现实技术。
在我最近的一篇文章中,详细介绍了增强现实如今面临的三大挑战,其中的实时对象分类是最大的障碍之一:
要让计算机视觉理解“杯子”的含义,而不是仅仅看到一个形状,这是一个不容小觑的问题。所以这么多年来,我们在AR演示作品中总会看到人们把基准标记附加到对象身上,以实现更细致的追踪和交互。为什么会如此困难呢?第一个挑战在于分类。杯子有数千种形状、大小、颜色和纹理。有些杯子拥有特殊的属性和特殊的用途(如烧杯),也就是说不同的杯子的使用场合和背景也有所不同。想象一下,编写这么一个可以帮助计算机理解上述所有概念的算法是多大的挑战。你也可以想象,编写一个向计算机解释杯子和碗之间区别的代码是多么地困难。
该文章还指出,“深度学习”有可能是实时对象分类的其中一种解决方案——这种学习涉及“训练”计算机去解读它所看到的事物,而不是人工去编写检测程序。本周,Facebook已经正式开源了他们的对象检测算法,这可能会加速能进行实时对象分类的系统的开发,从而让增强现实发挥真正的功效。
如果没有对特定环境进行预编程,与我们周围世界进行交互的增强现实将需要对我们附近的情况有粗略了解。比方说,如果你正戴着一款AR眼镜,你希望把烤箱的温度投影到烤箱上方,同时在冰箱上方投影出已经快要吃完的食物,这时AR眼镜将需要了解烤箱和冰箱的形状。由于烤箱和冰箱涵盖的形状、样式以及摆放位置都不尽相同,这将成为一项极具挑战性的任务。
在深度学习算法的镜头下,对象分类是什么样子的
Facebook的人工智能研究团队与其他相关团队一直在研究,如何利用深度学习来帮助计算机解决对象检测的问题,而这一基于Caffe2深度学习框架的对象检测算法就叫作Detectron。在正式托管至GitHub后,现在任何人都可以自行尝试。Facebook希望,Detectron开源后能帮助世界各地的计算机视觉研究人员进行新的尝试,并不断改进最新的技术。
该项目的GitHub页面上写道:“Detectron旨在为对象检测研究提供高质量、高性能的代码库。Detectron的设计十分灵活,能够支持新研究的快速实施与评估。”
算法可以检测视频输入,并能够猜测出构成场景的离散对象。“检测和识别人类与物体的交互作用 (Gkioxari et al)”等研究项目已经在使用Detectron了,并以其为基础来了解人类在特定环境中利用物体作出的行为。这是向正确的方向迈出的一步,以帮助计算机理解我们正在做的事情,从而能够为忙碌的我们提供有价值的信息。
除了人工智能研究之外,Detectron还被用于Facebook的其他内部团队;Facebook在Detectron的开源声明中写道:“各支团队正在利用这个平台来为各种应用进行定制模型训练,其中也包括增强现实和社区完整性研究。”
目前尚不清楚具体是哪支团队正在把Detectron用于增强现实,不过很可能就是Oculus。早在F8大会期间,Oculus的首席科学家Michael Abrash就曾探讨过,增强现实将如何并于何时彻底改变我们的生活。