第四波计算浪潮到来：人工智能需要怎样的硬件？

2017-09-04 15:28:09 来源: nextplatform

点击

美国投资公司Jefferies 最近一份报告称第四波计算浪潮已经开始，而且正受到物联网和并行处理方案的发展的推动。自 20 世纪 60 年代以来，计算领域的结构性转变一直都是由这一领域的主要力量导致的。

在每次转变中，都会涌现出新的解决方案提供商，并成为主要供应商。在这第四波计算浪潮中，最新的力量是英伟达及其用于高性能计算（HPC）和人工智能（AI）的并行处理平台，即 GPU 和 CUDA 编程平台。英伟达业务中数据中心部分的增长（从 2016 财年的 3.39 亿美元增长到 2017 财年的 8.3 亿美元）是这样的结构性转变的一个证明。人工智能和自动驾驶汽车的技术和产品需求是英伟达增长的关键推动力，而且这在广义上都和物联网有关。但是，物联网还有其它一些同样关键的安全和网络要求，不容忽视。

人工智能和并行处理的增长

让我们先深入了解一下现在正在人工智能领域发生的结构性转变。机器学习训练、推理算法和相关的技术是人工智能的基础，而这些算法已经存在了几十年了。而为英伟达等公司创造了巨量机会的转折点是：

有了跨多个行业的大量有用的训练数据集；

芯片设计和工艺尺寸的进展让与机器学习相关的并行处理的成本和功耗特性达到了可以接受的程度。

随着各种不同行业中许多不同类型的设备都越来越多地与互联网相连（换句话说就是 IoT 现象），生成的有用数据的量以及机器学习使用这些数据来改善这些行业中用户体验的能力都将受到广泛的影响。作为 x86 CPU 的协处理器，GPU 可以为机器学习带来大量所需的并行处理。GPU 原本是为游戏和图形处理应用设计的。配合 CUDA 等多线程编程环境，人们发现 GPU 是最有效执行机器学习算法的最优选择。

第四波计算浪潮是由并行处理和 IoT 驱动的

GPU 中的多线程处理让我们可以并行地执行类似的任务，而这对最有效地执行机器学习算法而言是至关重要的。这种处理方式非常不同于 x86 和 ARM 等通用型 CPU——这些处理器是为常见软件应用所需的单线程处理优化的，比如网页服务器和数据库处理。机器学习算法也需要处理大量训练数据，所以现代 GPU 也提供了高速高效的内存存取。

带有基于 GPU 的多线程处理的英伟达可编程图形适配器，可以加速图形和人工智能计算处理（来自英伟达 2017 年度投资者日的演讲）

尽管通用型 CPU 也可以被用于处理机器学习算法，但却无法提供必需的大规模计算性能。再加上随着硅芯片工艺几何尺寸的演进（也被称为摩尔定律），单位晶体管的成本也在上涨，而 GPU 等为机器学习优化过的协处理器芯片就成了一种必需品。

安全性和 5G 将驱动第四波浪潮

至于物联网和第四波计算浪潮，在使用协处理器的并行处理的重要性上，人工智能和网络安全之间存在很大的相似之处。

我们生活方方面面对普遍安全的需求只会被物联网进一步放大。如果我们看看近来的分布式拒绝服务（DDoS）攻击以及当今的设备（笔记本电脑和平板作为攻击点）可以如何被人侵入从而发动这样的攻击，你就可以想见当使用 IoT 作为攻击点发动攻击时，攻击效果将指数式地猛增。预防 DDoS 攻击的机制将不得不超越以往的范围，并一直延伸到数据中心服务器领域，以便解决转移 DDoS 所需的规模和速度需求。随着数据中心中数据流量的增长，这种需求还会进一步放大。

这一范式中的另一个关键转变是对流量可见性的需求，以便在网络流量上执行远程测量或屏蔽流氓访问流量。我们现在就需要这种东西，而且随着 5G 网络（带宽将增长 10 多倍）向新的行业敞开大门以在电信服务提供商网络上提供创新服务，这种需求还会加剧。比如，各种类型的 IoT 传感器和自动驾驶汽车将会在智能手机等移动设备生成的数据之上增加更多数据。为了确保不同类型的流量得到不同水平的保护，将网络分成“片”的能力将变得至关重要。这将需要高速的流量分类和可见性。

Gartner 预测到 2019 年时所有网络流量中的 80% 都将被加密。用于加密这些网络流量的关键相关技术是安全套接层（Secure Sockets Layer/SSL）和安全传输层（Transport Layer Security /TLS）。当使用这些技术加密流量时，我们就不可能获得所需的流量可见性。NSS Labs 的一项研究称在防火墙设备上解密 SSL 流量（以便实现流量的可见性）会让吞吐量损失 74%，每秒钟的交易量会减少 87.8%。当密钥更长时，SSL 解密引擎所需的工作负载中对复杂流量的处理也将增长。这将对延迟性能和服务水平产生显著的影响。最佳的解决方案是不要在数据中心网络的设备中实现这样的功能（因为流量在这里聚合，它的瓶颈会有很大影响），而是将 SSL 加密引擎工作负载分布到所有服务器上。

使用SmartNIC扩展安全应用

为了让数据中心服务器中的网络安全应用实现规模化、高性能和高效率，SmartNIC 平台使用了一种优化过的协处理器 NFP，即网络流处理器（Network Flow Processor）。和 GPU 类似，NFP 是多线程的——单块芯片上有多达 960 个线程。类似于 GPU 上基于 CUDA 的多线程编程，SmartNIC 中的 NFP 芯片支持使用 C 或更高级的与供应商无关的编程方法（比如 P4 和 eBPF）进行多线程编程。和 GPU 类型，NFP 也可以并行执行多个任务。和 GPU 只能并行执行相似的任务不同，NFP 还能并行执行多个不同的任务——这是网络安全所需要的功能。

带有基于 NFP 的多线程处理的可编程 SmartNIC，可以加速网络数据包和安全性处理

使用多线程内存存取引擎，NFP 可以在大量内存上实现高速且低延迟的存取，从而可实现对大量复杂流量的并行处理。最后，在人工智能领域，Caffe 等深度学习框架可以使用在 GPU 上运行的代码库加速。类似地，在网络安全领域，分布式虚拟交换、路由、防火墙、DOS、负载平衡以及其它安全和可见性框架都可以使用运行在 NFP 上的代码库加速。

数据中心使用协同处理层和多线程编程环境实现的可重配置结构

总而言之，对安全性和可见性的需求将愈发普遍，而且 DDoS 保护和 SSL 或 TLS 解密等技术也需要使用 COTS 和数据中心服务器以分布式的方式实现。在这种范式中，为了确保网络性能相关的服务的水平以及服务器的效率，使用协处理器的并行处理是至关重要的。和人工智能使用 GPU 等优化过的协处理器类似，为网络安全优化的协处理器将会成为实现物联网世界的第四波计算浪潮的一大主要力量。

为了实现可重配置的结构，我们相信未来的数据中心服务器将具有两个协同处理平面——一个用于机器学习和人工智能，另一个用于网络连接和安全。这些协同处理平面将使用协同处理芯片中针对应用优化的功能（这些功能是为实现最佳性价比指标的服务器而设计的），从而为创新的多线程编程环境提供支持。

作者简介

Nick Tausanovitch 是 Netronome 解决方案架构副总裁，负责该公司 SmartNIC 产品的云数据中心应用。Tausanovitch 希望帮助电信和云服务提供商实现软件定义网络（SDN）和网络功能虚拟化（NFV）的愿景，同时实现它们的基础设施的效率的最大化。在加入 Netronome 之前，他负责过博通公司的高端网络处理器产品线，也担任过 IDT 的电子设计总监（在这里开发过网络搜索引擎）和 Nortel 的系统架构师（在这里开发过交换机、路由器和网络处理器）。

责任编辑：星野

人工智能硬件