据悉,在2017人工智能计算大会(AICC)上,香港浸会大学副教授褚晓文发表了目前主流深度学习框架评测的主题报告,报告显示由浪潮牵头开发的开源项目Caffe-MPI,与其他主流框架相比取得了最佳的加速比,并在GoogLeNet网络模型中取得最佳性能。
根据报告显示数据,由浪潮开发的Caffe-MPI 2.0,在4节点16块P40 GPU的计算集群上,采用Imagenet数据集。采用GoogLeNet模型(Batchsize=128)时,16卡的训练性能为5886张图片/秒,较单卡提升14.2倍;采用ResNet模型(Batchsize=32)时16卡训练性能为1372张图片/秒,较单卡提升15.34倍,扩展效率高达96%。Caffe-MPI超越了CNTK和MXNet,成为加速比最好的深度学习框架,也是在GoogLeNet模型下性能最好的深度学习框架。
香港浸会大学副教授褚晓文表示,目前在测的所有深度学习框架中,浪潮Caffe-MPI展现出最好的加速比性能,相信对于所有需要将Caffe扩展到多机环境的用户,浪潮Caffe-MPI将是最好的选择。
Caffe-MPI 2.0出色的加速比得益于在并行算法设计上的创新突破。Caffe-MPI设计了两层通信模式:节点内的GPU卡间通信及节点间的RDMA全局通信,通过调用NCCL 2.0实现。这种设计极大降低了网络通信的压力,并克服了传统通信模式中PCIE与网络之间带宽不均衡的影响,非常适合现在的高密度GPU服务器。
同时,Caffe-MPI 2.0还设计实现了深层神经网络模型各层计算和通讯的异步,合并了多层待通信数据然后在到达一定量级时进行通信,有效避免了层内部数据量较小时的通信延迟。此外,Caffe-MPI 2.0还提供了更好的cuDNN兼容性,用户可以无缝调用最新的cuDNN版本实现更大的性能提升。这些设计细节使得Caffe-MPI 2.0能够在当前流行的深度学习框架下的集群训练中,实现近似线性的扩展。
Caffe-MPI是首个集群并行版的Caffe深度学习计算框架,基于伯克利Caffe框架,由浪潮主导开发并已在Github上开源公布所有代码,其采用成熟的MPI技术对Caffe予以数据并行的优化,目标是解决深度学习计算模型训练的效率问题。
2017人工智能计算大会(AI Computing Conference简称AICC)由中国工程院信息与电子工程学部主办、浪潮集团承办,旨是围绕AI当下需求及未来发展,从计算创新着眼,联合从事AI计算及应用的公司、用户、专家、开发者共同打造探讨促进AI计算的交流合作平台,推动AI产业的可持续发展。本次有海内外数十位知名专家围绕AI计算创新主题进行研讨报告,吸引了来自各行业的数千名专业人士参与。