AI不得不面对的难题
在上届北京安博会上,让人感觉不谈人脸不好意思说自己来参展,而这届彻彻底底变成不谈AI都很难吸引观众的眼球。据了解在国内,阿里巴巴、海康威视、华为、大华股份、苏州科达、宇视、东方网力、天地伟业等厂商已经推出了覆盖视频分析、人脸识别、智慧交通等领域的安防解决方案,不断让GPU的强大处理能力渗透至城市安全的各个领域。
AI在安防落地虽然是趋势,但目前也暴露出不少的问题,从技术角度而言有以下几点:
其一,当前基于“CPU+GPU”的计算模型已经被广泛运用于各种深度学习中去,但其本质而言,其实CPU与GPU均是利用相关成熟的技术提供一种通用级的解决方法来满足深度学习的要求,虽然诸如英特尔(Intel)及英伟达(NVIDIA)不断在推出新的加速芯片来完善自身的深度学习方案,但这也不能掩盖其缺乏针对专业应用解决方案的事实;
其二,当前深度学习的算法仅仅满足于特定的理想场景,例如空间限制等,但同样的产品放在不同场景下,其表现能力其实具有较强的局限性,这其中也有算法的困难,例如近距离与远距离场景的差异等;
其三,能效问题,目前的深度学习模型训练中,虽然可以实现一条指令实现大批数据的平行处理,但在平台 完成训练之后,需要进行的推理环节的计算,这部分却跟前者完全不同,无法实现单指令完成。而据估计,未来有95%的深度学习将用于推理,只有不到5%的资源用于模型训练,寻找低功耗、高性能的加速硬件成为当务之急。
FPGA能否弥补GPU的不足
在GPU方案无法满足未来需求的情况下,人们逐渐把目光投向了“FPGA” (Field-Programmable Gate Array,即现场可编程门阵列)。但如果没有深耕安防行业的相关方案,恐怕也会重蹈GPU之路。可喜的是在安防行业中,去年鲜见的该类型解决方案供应商,今年在安博会上有了代表,一下子吸引了众人的眼球——深鉴科技。
谈起这家企业,笔者也是陌生的,唯一的印象是在前不久蚂蚁金服领投的融资信息上看过这家企业。带着GPU存在的弊端及对其好奇心,采访了深鉴科技创始人&CEO姚颂,探讨FPGA在行业未来应用的前景。
(1)深鉴是谁?能干什么?
“深鉴科技是一家清华系背景的深度学习解决方案开发商,其核心一是深度压缩技术(Deep Compression),让算法模型更小,延迟更短、功耗更少,二是DPU硬件设计能力,为深度学习提供端到端的软硬件结合解决方案。”姚颂介绍。
笔者在现场看到的产品包括网络摄像机的板卡模组、以及针对NVR及服务器视频结构化及人脸识别的硬件方案等产品,姚颂介绍,深鉴主要解决的是人工智能平台落地难的问题,其解决方案主要针对特定领域的计算需求进行体系结构上裁剪和优化设计,能够使其获得比通用处理器体系结构更优秀的性能、更高的能效。“当前摄像机会用到两类平台,一类是英特尔Movidius的DSP和ARM阵营,另一类是英伟达TX1/TK1 GPU,但前者性能不强,仅仅能完成简单的算法,后者功耗太高。因此我们选择了折衷的方式,让智能化产品落地的同时保证性能、低功耗及稳定性。”
(2)与之前的AI初创型企业有什么不同?
姚颂通过在核心能力的研究方向,总结深鉴的独特性。“我们公司跟进入到安防行业已经有一段时间的商汤、旷视、依图、云从的定位完全不同,他们的核心能力是算法设计能力,具体表现为它们的人脸识别算法在世界比赛取得的成绩等等,这些是他们的核心能力。但深鉴核心的能力主要分为两部分:一是算法压缩,帮助客户实现深度学习算法压缩几倍到几十倍的服务,用户可以实现根据场景定义不同的算法,让客户减少前端的压力,同时设备也能运行得更快;二是深度学习处理器的设计能力(DPU),我们在清华、斯坦福已经积累了许多年芯片结构/指令级的设计,能实现比GPU功耗要低于几十倍,性能一样的产品。“ 他认为深鉴与商汤、旷视及应用设计企业之间是互补的关系,未来也定位在平台公司,既不碰应用,也不会进入到项目市场中去。以单纯地提供模组服务,帮助安防行业的企业继续保持竞争优势。
(3)这会是直接对标英伟达吗?
从某种程度上而言,芯片业巨头英伟达曾率先推出深度学习软件包 TensorRT,在深度学习算法推理阶段能将GPU的计算能力更大程度释放出来,相对简单易用。而深鉴科技自主研发的DNNDK((Deep Neural Network Development Kit)),即对标英伟达的 TensorRT 产品。
“从整个产品的技术特点而言,我们的产品与英伟达确实有类似的地方,他们有GPU,我们有DPU,他们有TensorRT,我们有DNNDK,但我们在业务场景上是有区别的,英伟达的产品往往没有具体细分到行业上,它提供的板卡既可以用于PC也可以用于监控,没有为行业定制方案,我们更加倾向于结合具体行业,而不是以撒网的方式向所有行业布局。”姚颂解释。
(4)FPGA那么贵,安防会选择吗?
安防厂商对于FPGA的最初印象大都停留在价格昂贵及开发难度大的层面上,GPU的迅速发展也让人们忘记了它的好处——灵活多变且功耗低,这也与当前行业兴起的边缘计算不谋而合,在看清GPU存在的问题之后,FPGA相信会获得更多的关注。
据相关资料显示,浪潮与Intel 于去年底FPGA加速卡 F10A 最高性能的加速卡,单芯片峰值运算能力达到1.5TFlops,功耗才35W,每瓦特功率42GFlops,是GPU的数倍之高。
“FPGA开发周期长,难度大,我们公司希望把这些问题都解决掉,所以我们软件、模组等产品都非常的简单易用,举个例子只要有C++基础的人,基本一周之内能学会使用我们的工具链,可以做自己的算法意识。由于深鉴会统一提供深度学习的模组方案,客户便不再需要单独购买FPGA,加上赛灵思(Xilinx,世界最大的FPGA芯片厂商)也是我们的投资方,得到他们的支持,客户最终拿到的价格也会比较合理。在解决了简单易用及价格因素的问题之后,用户自然没有选择的困难性。”姚颂回答。
FPGA与GPU公司在风格上也存在着异同,这点类似于传统企业与互联网企业一样,前者较为保守(喜欢把鸡蛋放在多个篮子),后者往往更加激进(喜欢孤掷一注),因此后者在产品的更新速度上往往会比前者更快。赛灵思看到这点的不足,于是选择了投资深鉴科技,让其不仅在芯片设计能力上进行优化,也通过模型压缩的方式,实现更天然有效的方式去快速迭代。
(5)完成融资后,有什么规划?
近期,深鉴科技完成4000万美元的A+轮融资。而现在,它也出现在安博会上,这也意味这个新面孔必然会在行业内“搞事情”。
对于融资后的规划,姚颂表示未来将从两个方面强化在安防行业的布局:一是通过团队建设,摸清行业脉路,真正让企业扎根进入行业中来,让人工智能在安防的落地更高效率;二是实现芯片在未来三年的更新换代计划,如明年上半年我们会推出第一套基于自身研发的听涛芯片方案,下半年便会计划推出迭代第二代芯片,实现服务的升级。
(6)如何合作,技术要求如何
对于合作方面,姚颂表示深鉴因为自身定位非常清晰——人工智能加速方案提供商,既不做设备和集成,也没有计划做政府如智慧城市等项目。希望通过提供方案,跟更多安防厂商合作,实现人工智能在各个场景运用起来。
姚颂介绍,开发技术能力较弱的企业只需提供调试接口,便能产品从软到硬实现人工智能。而具有开发能力的企业,也可以通过深鉴的软件,将自己算法与运用更好结合起来。
百花齐放才是春
对于当前AI方案的选择性上,各家技术大同小异。而FPGA的出现也能让其落地更加的高效、灵活、低功耗、低成本,必然能让行业的AI化更别具一番风采,这或许是未来一年安防行业最重大的变化。