[原创] 英伟达:不仅仅是一家芯片公司
在NVIDIA宣布将花费69亿美元收购数据中心网络公司Mellanox之后,让很多人为此感到惊讶,当中包括了NVIDIA的长期观察者。这是迄今为止NVIDIA有史以来最大的收购,相对而言,它以前购买的公司规模要小得多,而且往往是在对方甩卖的时候再出售。从规模上看,他们2001年出资拿下竞争对手3dfx资产的交易最为接近,因为当时NVIDIA是一家小得多的公司。
正如我在之前的一篇文章中所解释的那样。购买3dfx资产(以及雇佣100名员工)是一个更容易理解的举措,因为新资产可以立即投入到NVIDIA的核心业务——PC图形处理器上。多年Mellanox处于一个完全不同的业务——数据中心网络。Mellanox的产品补充了NVIDIA的产品,没有重叠。
通过此次收购,NVIDIA表示,他们不再是一家GPU公司。随着加速器业务呈指数增长并进入网络,NVIDIA现在是一家数据中心公司。
Mellanox首席执行官Eyal Waldman与NVIDIA首席执行官Jensen Huang共同出席了2019年的GTC舞台
收购Mellanox有很多有趣的方面,例如NVIDIA更深入地进入以色列的科技行业; Mellanox的其他计算相关资产(EZChip和Tilera); Jensen Huang的管理风格将如何在以色列发挥作用; Mellanox支持CCIX计算加速器连接协议与NVIDIA自己的NVLink。在后面的文章中,我们会一一深入探索这些不同。但现在,让我们来探索一下这款全新的NVIDIA。
NVIDIA如何成为一家数据中心公司?
这一切都始于2006年左右的发现(在斯坦福大学)。那时候,斯坦福大学的人使用图形处理单元(GPU)进行一些计算密集型工作负载处理,与传统处理器或CPU相比,GPU提供的每瓦性能有了重大的提升。
事实证明,用于处理像素(纹理处理)的所有小计算元素都可用于粗略的科学计算。该领域最初被称为GPU Compute。与此同时,图形也变得越来越复杂,并且GPU中增加了全功能的数学处理功能。NVIDIA的一些人,包括Bill Dally教授和已故的John Nicholls,注意到有机会扩大GPU的使用范围,并在高性能计算(HPC)市场中发挥重要作用。结果是,NVIDIA在以图形计算的Quadro产品线为基础,在其GPU中为HPC工作负载添加了更多功能,开辟了一条专门用来做数值计算的Tesla产品线。
该公司还为其GPU开发了CUDA编程框架,但从未支持任何其他GPU。作为主要竞争GPU供应商的AMD选择等待OpenCL开发,但这个软件的开发速度要慢得多。在这样的基础上,NVIDIA在HPC方面大获成功,并在超级计算机TOP500排行榜中名列前茅。据介绍,他们为全球两个最快的超级计算机提供动力。
NVIDIA首席执行官Jensen Huang展示了该公司在超级计算机上的增长
由于NVIDIA在HPC的GPU计算方面的工作表现优越,AI领域的一些研究人员决定使用GPU来加速称为深度卷积神经网络(DCNN)的新机器学习算法。新的DCNN和GPU的组合使得AI神经网络的训练和推断比以前更加快速和准确。这推动了原本处于寒武纪的人工智能研究和应用爆炸式增长,而NVIDIA引领这股潮流。该公司为这些新的工作负载快速调整了GPU,增加了新的数学函数,甚至加油称为Tensor Cores的专用处理元素。NVIDIA还开发了一系列名为cuDNN的软件库,针对CUDA和深度神经网络进行了优化。
由于人工智能研究的爆炸式增长,每个云供应商也都开发了自己的语言。谷歌拥有TensorFlow,Facebook拥有Pytorch / Caffe 2等。即使人工智能框架拥有碎片化的困境,但该领域仍在快速增长。因为大家还在继续研究新算法,所以灵活的方法具有长期的拥有成本效益。这就是GPU(或FPGA)等灵活性加速器说擅长的,因为他们很容易适应新的算法。在他的GTC 2019主题演讲中,Jensen将这种架构称为“PRADA”,从一个架构中可编程加速多个域。该体系结构兼容性允许构建已安装的软件和系统基础并降低基础架构的成本。
Jensen Huang解释了他的首字母缩略词PRADA
从芯片转向系统
在黄仁勋的主题演讲中他提出,数据科学是科学方法的第四个支持。NVIDIA意识到数据科学家和人工智能研究人员短缺,因此这些人的生产力非常重要。为了保持这种势头,将资源带给更广泛的开发人员非常重要。因此,该公司设计了一系列DGX工作站和服务器,满载了用于ML研究的CUDA-X工具和库。该公司正在利用来自多家系统原始设备制造商(包括戴尔,惠普公司和联想)的新数据科学平台,扩大其对数据科学家的影响力。
即使使用新的系统和工具,该行业仍然面临着为商业和科学见解分类新的和现有数据的挑战。这推动数据科学去解决数据过多的问题。当我们进入自动驾驶汽车时代,它们将产生需要处理的数十亿字节的信息。这就是为什么英伟达认为越来越多的数据中心需要构建AI处理来对所有这些数据进行分类的原因。
超级计算机与HPC
在HPC的工作中,NVIDIA专注于提供最大计算性能解决非常大的问题。超大规模数据中心通常会同时运行许多计算任务(向外扩展)。数据科学的需求恰好介于两者之间 - 大型数据集和许多用户,并具有向上扩展和向外扩展的特征。
为了满足这些不同的需求,NVIDIA已经与Mellanox建立了许多服务器项目,提供机架网络。由于Mellanox的成功,它成为各种芯片公司和云公司的收购目标,当中包括英特尔和微软等公司。然而,Mellanox不是去其中一家公司,而是寻求像NVIDIA这样更友好的合作伙伴。黄仁勋也在有机会成为Mellanox的白衣骑士时,抓住了这个转瞬即逝的机会。
随着Hadoop,SPARC和RAPIDS等数据分析程序对工作负载的容器化和超大规模的不断增加,他们看到通常被称为数据中心的东西向通信的机架到机架通信呈指数增长。那就意味着低延迟网络对于创建计算结构至关重要。
Mellanox的网络技术可以使数据中心足够灵活,以适应这些不断变化的工作负载。Mellanox的关键开发是把网络任务从CPU转移到加速器,在未来它将为其交换产品添加AI以更有效地移动数据。
对于服务器扩展应用程序(如HPC),目标是使多个GPU像一个巨型GPU一样工作。这就是NVIDIA的NVLink发挥作用的地方,将多个GPU捆绑在一起。对于更广泛的基础设施,可以部署Tesla T4卡。这些70W half-height PCIe PCIe卡适用于2U机架机箱,因此这些卡可以大量添加到现有数据中心。T4是NVIDIA最灵活的数据中心产品 - 它可用于推理,训练(速度与V100速度不同),数据科学,视频转码以及VDI(虚拟桌面)应用。
在未来,英伟达将更加重视云和边缘应用程序的推理,这也是NVIDIA在英特尔竞争最激烈的领域,
虽然AI加速器的宝座上有许多竞争者,但NVIDIA依然是拥有最多安装量的山顶之王。通过收购Mellanox,它们开辟了其数据中心领域。
- 半导体行业观察
- 摩尔芯闻