在3月底举行的“深圳市智慧安防商会第一届二次会员大会”上,北京深鉴科技有限公司销售与市场总监付祺伟围绕着“深度学习处理器与多场景AI应用”的主题现场做了些许分享,在演讲当中,付祺伟重点提到了关于降低人工智能应用门槛的问题,也是当前用户端比较关心的问题。
近两年来,随着算力条件的不断升级以及各行各业应用需求的爆发,人工智能成为当前炙手可热的商业“课题”。而人工智能要做到“有用,好用”,在硬件架构上需要大规模的GPU、CPU做运算支持,这意味着高成本的投入,为了让人工智能在应用领域爆发开来,当前我们需要解决应用门槛的问题,直白的说就是把应用成本降下来。如何解决成本的问题呢?首先,我们来了解一下计算平台的变革历程。
计算平台变革带来性能和成本的改变
2012年初,谷歌算法工程师轰动全球的猫脸识别,当时动用了1000台服务器和16000个CPU ,模拟了一个10亿个节点的神经网络,一千万张谷歌猫脸图片,训练出了猫脸识别的算法,耗资巨大。同年,一位叫Geoffrey的工程师仅用一台服务和2个GPU,开发了AlexNet的算法,在ImageNet一百万张图片库的识别率就达到了百分之八十几。
从16000个CPU到2个GPU,计算平台的变革所带来的改变是巨大的,既带来了使用体验的高效提升,同时对于成本的控制也显而易见。
通用芯片转向专用芯片
人工智能所需的深度学习需要很高的内在并行度、大量浮点计算能力以及矩阵运算,计算量巨大,因此也推动着通用的智能芯片向专用芯片的转化。付祺伟向大家介绍了目前业内出现的一些定制级的AI芯片,比如国外的芯片巨头如ARM在CPU上添加神经网络加速库、NVIDA的针对AI训练侧的GPU、Xilinx的FPGA、针对深度学习推理侧的TPU V1、把自动驾驶算法写到芯片上的Mobileye Eye Q5 、Intel CPU 、Movidius DSP 等都是针对不同层级的AI芯片。
这两年来,随着国产AI芯片的崛起,国内如寒武纪、地平线、深鉴科技等也在AI芯片上取得了不错的进展,其针对的AI层级也有所不同,如寒武纪面向更通用的机器学习市场的Cambricon MLU 、深鉴科技自家的DeePhi DPU则更加关注深度学习层面、地平线的Horizon Journey更专注于面向行业的算法。
相比于通用芯片,专用芯片是为特定场景而定制的,具备低功耗、低成本、高性能的优势。
深度模型压缩算法:提速、减负、降成本
目前在深度学习领域分类两个派别,一派为学院派,研究强大、复杂的模型网络和实验方法,为了追求更高的性能;另一派为工程派,旨在将算法更稳定、高效的落地在硬件平台上,效率是其追求的目标。付祺伟认为,复杂的模型固然具有更好的性能,但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。
深鉴科技拥有一套深度模型压缩算法,这里的压缩并不同于我们接触的H.264(H.265)视频压缩,而是对算法神经网络、算法模型的压缩。为什么算法模型需要压缩?
付祺伟表示,一套算法模型一般有大约100Byte的内存规模,里面包含了神经网络各个节点的权重值以及各种计算的链接,如果把这么多的权重值和链接都读到内存中让它们之间相互做运算,它所需要消耗的DDR和存储空间都是非常巨大的,同时也将产生巨大的计算量。
深鉴科技深度模型压缩算法可以通过“剪枝”和稀疏化来实现对算法模型的压缩。
付祺伟解释道,“剪枝”就是把不必要的信息过滤掉,稀疏化即是把没有产生链接,没用的权重值去掉,通过这样的方式,就可以把比较大的神经网络压缩成一个小型规模的神经网络,降低功耗的同时,性能保持不变,也让运算速率提升起来。
小结
人工智能热度不减,因为AI确实是当前个各智能产业领域提升生产力的重要推力,但目前市场上大谈算法和技术成果的企业很多,真正能拿出手的应用案例仍相对较少。AI 企业更应该站在用户的角度,解决AI落地应用的问题,包括成本控制、运算性能等,这样才能让人工智能在应用领域加速普及,“工程派”的企业也将走得更稳,更远。