赛灵思器件经过精心设计,能满足多种高性能终端系统的计算、效率、成本和灵活性需求。赛灵思
将硬件可编程资源(例如逻辑、走线和 I/O)与灵活、独立的集成内核模块(例如 DSP Slice 和 UltraRAM)组合在一起,全部构建在领先的工艺技术上,例如台积电 (TSMC) 的 16nm FinFET 工艺技术,从而达到这种平衡。
赛灵思器件具备硬件可编程性和灵活性,意味着底层硬件通过配置可满足给定工作负载的需求。随后,甚至在运行时也可通过部分重配置功能方便地重新配置数据路径。图 4 试图捕捉赛灵思 All Programmable 器件提供的部分灵活性,但是赛灵思器件的真正灵活性无法通过单张图片来体现。内核(或用户设计元素)可以直接连接可编程 I/O、任意其它内核、LUTRAM、block RAM 和 UltraRAM、外部存储器等。
图 4:All Programmable 数据路径和任意到任意 I/O
赛灵思器件具有独特的硬件可编程性,意味着它们不存在特定局限性,例如 SIMT 或固定数据路径。无论是大规模并行、适度并行、流水线连续或者混合形式,都能获得赛灵思器件的计算能力和效率。此外,如果底层算法改变(例如机器学习网络的发展),则平台也能相应调整。
很多系统和工作负载中都能看到赛灵思器件发挥灵活性优势。其中一种工作负载就是机器学习推断。机器学习推断的趋势之一是向稀疏网络过渡。赛灵思器件的用户已经在利用这种趋势。英伟达公司本身就是这些用户中的一个。在最近与英伟达联合编写的关于语音辨识的一篇文章中,通过使用赛灵思 FPGA,相对 CPU 实现了 43 倍速度提升和 40 倍效率提升,相对 NVidia GPU 实现了 3 倍速度提升和 11.5 倍效率提升。可编程数据路径还减少了赛灵思 FPGA 批处理需求。批处理是系统的时延 vs 实时性能的重要决定因素。
从大数据角度看,赛灵思器件的灵活性也展现出明显优势。赛灵思 FPGA 在处理 SQL 工作负载时非常高效和快速,包括具有复杂数据(例如可变长度字符串)的情况。百度利用基于赛灵思 Kintex® UltraScale™ KU115 器件的加速卡实现了 25 倍以上的提速。该加速卡的功耗仅 50W,使百度
的解决方案效率是 GPU 方案的 4 倍。对于文本和图案匹配工作负载,研究表明基于赛灵思的 RegEx 方案比 CPU 方案快 14.5–18 倍,比 GPU 方案快了将近 3 倍。
基因组分析是另一个切实的实例。有人已经利用 GPU 来加速基因组分析,可相较于 Intel Xeon CPU 方案提速 6–10 倍。不过,赛灵思 FPGA 的提速效果要高得多,相较于同等 CPU 可提速 80 倍。
赛灵思器件的灵活性还使其成为云服务提供商的理想选择,可作为计算平台即服务的一部分。多种类型的软件即服务都可以利用赛灵思器件的优势。
最后,对于正在努力研发自动驾驶功能的汽车系统设计人员来说,赛灵思器件的灵活性能够为他们提供可扩展的平台,用以满足完全自动驾驶道路上的各种美国汽车工程师学会 (SAE) 标准。如需了解关于 SAE 标准的更多信息,敬请访问SAE 网站。赛灵思器件可以高效处理来自各种源头的传感器数据,例如雷达、照相机和超声波,同时保持系统的实时/时延目标。