拿下全球7巨头的3家，看Xilinx如何在超大规模数据中心玩转FPGA

2016-12-15 10:12:00 来源: 互联网

点击

如今，科技界都流行转型，或是多元化、生态化发展，IBM就是一个典型的例子，其从一家硬件公司，逐步转化为软硬件结合，多方位提供服务的生态系统提供商。而作为FPGA行业的老大，Xilinx（赛灵思）也已经从一家纯硬件的公司，转变为硬件和软件兼顾的企业, 也因此拉开了其在前所未有的应用蓝海中攻城掠地的战略拓展。

Xilinx公司战略与市场营销部高级副总裁Steve Glaser表示，Xilinx已经完成了转型，从一家单纯的FPGA公司，成长为我们所称的All Programmable（全可编程）企业。现在，我们新增了300~400名软件工程师，他们专注于驱动我们客户的软件智能化应用。

在过去两年的时间里，除了推出异构多核Zynq MPSoC和致力于加速计算的UltraScale+加速增强型FPGA硬件以突破产品的集成度之外，该公司还通过软件定义设计环境SDx 的开发致力于实现FPGA在编程模式上的突破。软件定义的开发环境在编程模式上为软件工程师和系统级工程师打开了应用FPGA进行各种应用开发的大门，也就是开发者能够使用C/C++和openstack 等基于FPGA开发库和功能。该公司的目标是在今后5年的时间里，使得Xilinx的潜在用户增长5倍达到250000，这些用户主要来自系统和软件工程师，他们对FPGA的硬件并不是非常了解。

专注4大高速增长领域

Steve Glaser表示，正是由于可编程器件集成度和可编程模式上的两大突破，使得Xilinx能够参与到四大业界高速增长的领域：云计算，嵌入式视觉，工业物联网，5G。

Xilinx在这4个行业领域所发挥的作用各不相同，首先来看云计算，在这个领域，其不仅仅是要加速计算工作负载，比如机器学习和大数据分析，还要加速存储和网络。第二，在嵌入视觉领域，主要针对的是汽车，还有一些其他的机器，要使它们看得见，而且不仅是看得见，还要看得清楚，一览无余。

上周，Xilinx的网站上推出了嵌入视觉开发者专区，为其客户提供了“一站式平台”，帮助他们迅速设计并建立视觉系统系统。据悉，Xilinx在视觉系统领域全球范围内已经有200多家客户，其中包括中国无人机也是全球无人机的No.1大疆公司。

还有一个非常重要的视觉系统应用就是ADAS，也就是高级驾驶员辅助系统，Steve Glaser表示，我们已经进入到23家汽车制造商所生产的85款ADAS汽车型型号中。

物联网方面，Xilinx更多专注的是工业物联网，而不是消费级的物联网或者是可穿戴设备领域。Steve Glaser表示，我们非常专注这些互联的智能机器，同时也要为它加上安全可靠的元素，因为在这一领域，安全非常重要。

还有一个领域就是5G。5G和物联网、车联网，还有对云计算高带宽的访问都非常重要，而Xilinx在5G技术开发领域也扮演着重要角色。

重中之重的云计算与机器学习

对于Xilinx来说，以上所有这些当中，云计算是重中之重。

百度在几个月之前宣布使用赛灵思的UltraScale FPGA加速机器学习应用，包括语音，还有自动驾驶汽车的应用。另外，亚马逊（Amazon）也宣布要推出由Xilinx的FPGA来驱动的服务，在Amazon 的弹性计算云（EC2）上实现了FPGA即服务（FPGA-as-a-Service），每个F1实例计算池上可配置多达8个FPGA，以实现数据分析、视频、安全和机器学习。

在过去的两年中， Xilinx在推动FPGA在数据中心的主流应用上可谓是引人注目。

其中包括与与两个业界巨头的联手：第一个是高通，用以加速他们的ARM服务器，还有一个是IBM，用以加速他们的Power服务器。

此外，在业界标准的制定方面，Xilinx也发挥了重要作用，今年5月，其与AMD、ARM、华为、IBM、Mellanox 和高通等六大高科技行业巨头联手结为CCIX（Cache Coherent Interconnect for Accelerator，智能高速缓存一致性互联标准）联盟，最近又宣布这一联盟的成员已经比创立时增加3倍，已经达到23家。

在产品方面，Steve Glaser表示，我们要比竞争对手领先一年一个季度，我们有非常先进的20纳米和16纳米产品提供给云计算客户；最近我们还引入了16纳米级产品的延伸产品，在这个产品当中，我们支持HBM，也就是高带宽的存储器和CCIX标准。

“通过和百度、亚马逊这样公司的合作，在过去很多年里我们学到了很多，也了解了他们在应用我们产品和技术时遇到的一些障碍，以及他们在开发和部署时遇到的挑战。于是，我们就把这些学到的经验结合到我们新推出的可重配置加速堆栈当中，也是我们近期推出的产品” Steve Glaser说。

在谈到GPU与机器学习的结合，以及英伟达公司最近神奇表示的时候，Steve Glaser表示：”我相信市场对于超大规模数据中心加速这一块的价值的估计是10亿~30亿美元，甚至连英特尔都会说有30%的云数据中心的节点当中会包含FPGA。虽然现在还处于市场发展的早期，但是我们已经看到了非常迅猛的势头，比如我们和百度和亚马逊联合发布，以及微软今年发布的内容，都证明了这样一种势头的存在。所以对比一下，我们可以看到，英伟达在高性能计算市场，它确实起步非常的早，但是它现在在机器学习方面仅仅是关注训练，训练占到整个市场的机遇仅仅是不到5%，而其余的95%都是推断，而这正是赛灵思专注的领域和长项“。

FPGA的新乐园：超大规模数据中心

据悉，在超大规模数据中心当中应用FPGA的势头非常迅猛，所谓超大规模数据中心，就是现在的互联网公司当中的7个巨头，包括中国的百度、阿里巴巴、还有腾讯，以及美国的谷歌、Facebook、亚马逊和微软。

据Xilinx云计算战略市场开发总监Andy Walsh介绍，目前，Xilinx已经和7巨头中的3家进行了合作，还和很多其他互联网公司进行了深度的合作，有些合作是保密的，但是我非常高兴在上个月已经和百度宣布我们的合作。百度用Xilinx的FPGA主要用于机器学习方面的加速，包括语音识别，还有其他领域，包括自动驾驶当中的推断。百度对我们的FPGA进行了服务器上池化的配置，也就是把多个FPGA配置在一个节点或者一组节点，然后进行池化的加速。池化这个概念非常重要，因为有很多客户也会使用这样的概念，另外，它也是优化在超大规模数据中心、超大规模云计算方面优化加速器非常重要的概念。

百度除了宣布在机器学习当中使用Xilinx的FPGA之外，还在今年夏天硅谷的一次高端会议Hot chips上，发布了一篇论文，是关于FPGA加速SQL用于数据分析的研究。根据百度的研究结果，Xilinx的FPGA可以比至强处理器快10倍。

Andy Walsh还谈到了与北京一家初创公司的合作，叫深鉴科技，它在FPGA以及超大规模计算方面扮演着非常重要的角色。该公司虽小，但其研发人员有不少来自清华大学和斯坦福大学，都是高水平的计算机研究人员，他们的一些研究领域和成果在业界处于领先地位，包括一些方法和技术，使得机器学习推断的效率能够更高。

据Andy Walsh介绍，微软把FPGA应用得得淋漓尽致。在数据中心当中，他们把FPGA用于解决很多问题，比如用于加速网络和加密，还有把它用于一个架构的拓扑，来池化加速资源，运行计算工作负载。

前不久，在亚马逊云计算服务大会上，他们的CEO宣布了很多功能方面的突破，包括推出了他们F1的一些实例。在F1的实例当中，它用的是8个Xilinx高性能FPGA。在这个例子当中，他们用的是多个加速器，也就是8个FPGA再加上2个至强处理器，用于数据分析、视频转码，还有安全处理和机器学习。

FPGA简化传统CPU方案

Andy Walsh表示，与至强处理器（Xeon CPU）相比，Xilinx的FPGA有诸多优势，主要体现在效率方面，也就是性能除以功耗，比至强处理器高出许多倍。以视频转码为例，用我们高性能FPGA，能比CPU快20倍，但是它的功耗只有CPU的一半，所以它的效率是40倍。

从上图中，可以看到加速的经济性对照，这里一共有两种选择来部署处理工作负载，这两种选择的吞吐量都是一样的。在这里举个例子，是两种工作负载的混合，第一个是机器学习，第二个是数据分析。在这样一种加速方案当中，用1个服务器再加上16个FPGA，它的性能相当于一个机架，也就是24个至强服务器的性能。而且，它的占用空间只有1/10，它的功耗也只有1/12，系统成本也只有1/12。

Andy Walsh还表示，仅仅从FPGA 上来比较，与Altera 相比，Xilinx的FPGA在计算效率方面优势非常明显，尤其是机器学习推断。

可重配置加速堆栈

随着时间的推移，FPGA所特有的可重配置和可重编程特性，或许是快速发展的技术领域中FPGA所独具的最大优势。

利用动态可重配置技术，FPGA能在一秒之内快速切换成不同的设计方案，面对下一个工作负载进行硬件优化。因此，Xilinx的 FPGA 能为复杂多变的超大规模数据中心应用提供所需的灵活性、应用广度和功能速度。在云端，Xilinx可重配置加速堆栈具有快速创建和部署可重配置FPGA池的能力，不仅可最大化加速器利用率，降低总拥有成本，而且能够提供比其它FPGA竞争方案高出2-6倍的计算效率。

专为云级应用而设计的可重配置加速堆栈，为应用开发人员和平台设计人员在云级部署时全面发挥FPGA的优势，提供了最快的开发和部署途径。该堆栈包括库、框架集成以及附带部署参考设计的开发板，支持OpenStack，并提供符合业界标准的用户体验。

借助Xilinx的FPGA，该堆栈方案为超大型数据中心的开发和部署提供了最快的途径：比x86服务器CPU快40倍；比竞争对手的FPGA快6倍。通过动态可重配置技术，为各种需要高性能计算的工作负载（诸如机器学习、数据分析、视频转码等）实现芯片级优化。通过切换至最佳设计比特流，对这些工作负载的优化仅需毫秒级即可完成。