原始计算能力
与 GPU 拥护者的说法不同,单个赛灵思器件能提供强大的原始计算能力,例如 Virtex® UltraScale+™ XCVU13P FPGA 的性能达到 38.3 INT8 TOP/s。最先进的 NVidia Tesla P40 加速卡以基础频率运行时提供相似的 40 INT8 TOP/s 原始计算能力,但功耗是赛灵思解决方案的 2 倍多。赛灵思器件的灵活性和片上存储器能针对很多工作负载和应用显著提高计算能力。
此外,赛灵思器件的灵活性意味着能够支持各种数据类型精度,例如 FP32、INT8、二进制和定制。例如,针对二值化神经网络,赛灵思提供 500TOPs/s 的超高二进制计算能力(假设 2.5 LUT/运算),相当于 GPU 典型性能的 25 倍。有些精度最适合使用 DSP 资源,有些最适合在可编程逻辑中实现,还有些适合将二者结合起来使用。这种灵活性确保器件的计算和效率随着精度降低而调整,一直到二进制运算。
机器学习领域的大量研究都从计算、精度和效率角度来研究最佳精度。无论最佳点在哪,对于给定工作负载,赛灵思器件的计算能力和效率都能随之调整,以实现降低精度后的所有优势。
几年来,很多 FPGA 用户实现了脉动阵列处理设计,以便针对多种工作负载实现最佳性能,包括机器学习推断。为了确保赛灵思 FPGA 和 SoC 用户能够在现有的赛灵思器件上针对此类工作负载将可实现的计算能力和效率实现最大化,赛灵思为此提供多种资源。这些资源包括 INT8 最优化以及将 DSP 阵列映射到 block RAM 和 UltraRAM 的最高效存储器层级。如需了解有关这些资源的更多信息,敬请联系您所在地的赛灵思销售代表。
为了针对当今的深度学习工作负载提高可用的计算能力和效率,英伟达在 Volta 架构中以 Tensor Core 的形式硬化了类似功能。然而,深度学习工作负载会随时间演进,因此 Tensor Core 架构也可能需要改变,而且 GPU 用户需要等待和购买新的 GPU 硬件。
效率和功耗
从系统级角度看,计算平台必须在给定的功率和热范围之内提供最大计算能力。为满足这一需求,计算平台需要:
· 处于允许的功率范围内
· 能够在功率预算内将计算能力最大化
赛灵思提供丰富的 All Programmable 器件,这使用户能选择与功率和热范围最匹配的器件。此外,赛灵思的 UltraScale+ 器件具有低压模式 (VLOW),能将功耗降低 30%,效率提升 20%。
如表 1 所示,赛灵思器件针对固定精度数据类型提供从原始计算角度看最高效的通用计算平台。这主要是因为赛灵思 FPGA 架构中的处理开销更低。例如,GPU 需要围绕计算资源实现更多复杂性,以便实现软件可编程功能。对于当今的深度学习工作负载的张量运算,英伟达的 Tesla V100 凭借硬化的 Tensor Core 能实现与赛灵思 FPGA 和 SoC 差不多的效率。然而,深度学习工作负载也在快节奏演进,因此无法确定英伟达的 Tensor Core 能够针对深度学习工作负载保持多久的高效性。显然对于其他通用工作负载,NVidia V100 也存在效率方面的挑战。
表 1:器件效率假设 90% 器件利用率和 80% 有效时钟周期
鉴于本白皮书之前介绍的局限性,对于真实的工作负载与系统,GPU 很难接近表 1 中所给出的数字。
赛灵思器件的灵活性及其他优势,加之赛灵思最新软件开发堆栈,能确保基于赛灵思的解决方案为大量最终应用和工作负载实现显著提高的效率。
赛灵思器件的附加优势——例如灵活性和片上存储器——能确保赛灵思器件的效率被大量最终应用和工作负载所实现。