[原创] 英特尔发布最强FPGA,多款芯片在路上

2020-06-20 14:00:12 来源: 半导体行业观察

为数据服务是芯片巨头英特尔未来的工作重点,这是毫无疑问的一件事。

正如该公司数据平台事业部副总裁,英特尔至强处理器和存储事业部总经理Lisa A. Spelman日前在接受媒体采访时所说一样:“在我们的行业中,从来没有一个时期能像今天这样可以赋予我们如此巨大的机遇,包括5G网络转型、人工智能、边缘计算和万物云化在内的多项关键转折性技术正在推动数据的增长并塑造整个行业”。

作为一个拥有多种技术平台的公司,英特尔正在用其极具优势的产品组合在助力整个产业往数据时代迈进。

英特尔的“软硬兼施”


在英特尔看来,现在的数据时代面临着几方面的机遇和挑战:

一方面,人工智能分析将是未来十年起决定性作用的工作负载,这将推动以数据为中心的领域从云到边缘的颠覆性创新。而英特尔提供的芯片和软件基础,是专为从云到边缘的各种用例而设计的。

据了解,英特尔不但为数据时代提供了极具优势的至强系列处理器,另外还有GPU、FPGA加上收购的Habana和Movidius等公司提供的AI芯片技术支持。这些标量、矢量和矩阵架构的组合,能帮其客户在需要的时间和地点使用最合适的计算类型。

“但是拥有单一的产品是不够的,我们还认识到有必要将这些产品集成到一个通用平台中,从而使它们不只是其各个部分的总和,当中包括处理,内存,I / O,封装,内部和外部 IP,互连和安全性等”,英特尔方面强调。

另一方面,过去几年,随着数据流量的不断增加,连接性成为了束缚高性能计算充分利用并释放计算潜力的瓶颈。

针对这个问题,英特尔在过去几年加大了连接性方面投资,不但收购了行业内的领军企业Barefoot,同时还在以太网和硅光等技术上进行投资,旨在让数据从以太网到硅光子再到交换机的迁移过程变得更加迅速。

再者,随着数据的迁移以数据为中心的基础设施还需要存储大量数据,同时具有快速访问这些数据的能力,从而快速对数据产生洞察。通过对3D NAND和傲腾技术的投资,英特尔保持了在内存和存储领域的持续创新。

以上谈到的只是英特尔在硬件方面的表现,但其实为了更好地让开发者利用他们的硬件,英特尔还在软件和生态方面做了巨大的投入。


从Lisa A. Spelman的介绍我们得知,英特尔过去多年里对客户常用的软件不断进行优化,当中包括了流行的开源框架、定制拓扑结构等等。此外,他们还通过应用程序工程和支持开源社区,我们使AI开发人员能够在Intel平台上进行编程。特别是在最近两年,英特尔谋划借助oneAPI建立一个统一的编程模型,为开发人员提供统一的体验,同时使我们产品组合当中的所有AI产品的性能得以最大化。这个项目对开发者来说,带来的便利是显而易见的。

看准了这个方向之后,英特尔在过去几年里除了加大力度扩展软硬件的覆盖和实力之外,还持续升级他们的产品。在日前举办的峰会上,他们一口气带来了至强处理器、存储和FPGA这三个领域产品的更新。

第三代至强可扩展处理器


首先要讲的就是他们的第三代至强可扩展处理器。

英特尔方面,当前的数字世界对于灵活计算、网络和存储有需求。未来的工作负载将迫使基础设施能够通过无缝扩展的方式支持即时响应和各种各样的性能要求。数据生成和使用呈指数增长、云规模计算的迅速扩展、新兴的 5G 网络以及高性能计算 (HPC) 和人工智能 (AI) 向全新用法的延伸都要求如今的数据中心和网络与时俱进,否则就会在竞争剧烈的环境中落伍。这些需求正在推动适用于面向未来的现代化数据中心和网络的架构能够迅速伸缩自如地发展。而他们的至强可扩展处理器就是因应这些需求而诞生的。


据介绍,这个专为数据中心现代化而设计的处理器家族为建立一个强大的数据中心平台奠定了基础,从而在敏捷性和可扩展性方面逐渐跃上了一个新台阶。这款创新的处理器采用了颠覆性设计,在计算、存储、内存、网络和安全性方面树立了平台聚合及功能的新标杆。企业、云和通信服务供应商现可借助一个功能丰富且高灵活度的平台推进其雄心勃勃的数字计划。


新推出的第三代可扩展至强处理器(代号“Cooper Lake”)是英特尔面向四路、八路处理器市场的产品。这一处理器专为深度学习、虚拟机(VM)密度、内存数据库、任务关键型应用及分析密集型工作负载而设计。对于那些将老旧基础设施进行更新换代的客户来说,与使用寿命已达5年的同等级四路平台相比,其有望在常见工作负载3上获得预计约1.9倍的提升和高达2.2倍的虚拟机提升。

英特尔公司市场营销集团副总裁兼中国区数据中心销售总经理陈葆立先生则表示,这是一款针对四路和八路服务器市场推出的高性能产品。除了在人工智能和数据分析市场表现优越之外,这个处理器在高性能计算发哪敢也有很好的表现。这主要得益于其领先的设计和Bfloat16这个新指令的引入。


从硬件上看,新一代的处理器采用14nm工艺制造。在基准频率方面,则提升到3.1Ghz单核睿频加速最高则可达4.3GHz,三级缓存最多38.5MB(每核心对应1.375MB),热设计功耗150-250W。在拥有最多28核心56线程,八路就意味着最高支持224核心和448线程。在内存方面,新的至强可扩展处理器支持六通道DDR4,最高频率3200MHz,单路最多12条,并支持16Gb高密度颗粒,单路最大容量可达4.5TB,八路就是36TB。此外,芯处理器还内置了六条UPI互连总线,最高传输率达10.4GT/s。输入输出个故事支持最多48条PCIe 3.0通道。


对于新处理器来说,对bfloat16的支持是其一大突破。据介绍,这是一个精简的数据格式,与如今的32位浮点数(FP32)相比,bfloat16只通过一半的比特数且仅需对软件做出很小程度的修改(如必要),就可达到与FP32同等水平的模型精度。新增的bfloat16支持同时为CPU的AI训练和推理性能提供加速。


据了解,英特尔针对领先的深度学习框架(包括TensorFlow和Pytorch)优化过的版本将支持bfloat16,并通过英特尔AI分析工具包即可获得。英特尔同时为OpenVINO工具包和ONNX Runtime环境提供bfloat16优化,以简化推理的部署工作。


得益于这些配置,新的至强可扩展处理器在AI性能方面也有出色的表现,公司更是计划在明天推出全新的产品。


全新的傲腾持久内存和3D NAND固态盘


在英特尔的产品线中,存储是必须一提的重要角色,当中包括了傲腾存储和3D NAND存储。今日,他们带来了全新的傲腾持久内存和3D NAND 固态盘。


据英特尔介绍,这是一种不同于当前被广泛使用的DRAM内存。英特尔傲腾持久内存 (PMem) 提供了许多令人兴奋的新功能。例如容量远远高于传统的 DRAM。据了解,英特尔傲腾持久内存模块具有 128GB、256GB 和 512GB 等等多种容量,远远大于通常从 4GB 到 32GB 的 DRAM 模块。


此外,英特尔傲腾持久内存甚至可以在不通电的情况下以持久模式存储数据,通过增加安全性来保证数据不受损。英特尔方面表示,尽管傲腾持久内存模块的速度不如 DRAM 模块那么快,但从成本/GB 的角度以及可将容量扩展到超过 DRAM 的能力来看,傲腾持久内存的 TCO 情况与 DRAM 相比有了很大的改善。


新推出的傲腾PMem 200系列则是英特尔针推出的、针对第三代至强可扩展处理器优化过的第二代高性能持久内存。如上图所示,该系列内存提供了比上一代高25%的内存带宽,通过减少I/O瓶颈以更快地分析数据。能128 GB,256 GB和512 GB模块,最大容量为512 GB。据了解,傲腾持久内存200系列能还够与传统DDR4 DIMM共存,与DRAM并排占用相同的主板插槽。


前面有提到,这个内存针对第三代至强可扩展处理器做了优化。据英特尔方面透露,芯处理器引入了英特尔傲腾持久内存200系列之后,可在四路系统中提供多达18TB的内存数据,非常适合应对最大的数据分析挑战。在意外断电的情况下,傲腾持久内存200系列提供的CPU对持久性数据的访问速度比主流NAND SSD读取数据快225倍以上。与DRAM不同,在计划或计划外重新启动后,数据不必重新加载到内存中。


除了这个傲腾持久内存,新的3D NAND Flash也是英特尔这次产品发布的一道靓丽风景线。

这是英特尔针对使用全闪阵列存储数据系统发布的新一代高容量英特尔3D NAND固态盘——英特尔SSD D7-P5500 和P5600。据介绍,这些3D NAND固态盘采用了英特尔最新的TLC 3D NAND技术以及全新低延迟PCIe控制器,能够满足AI及分析工作负载的密集IO需求,并具有提高IT效率和数据安全性的高级功能。


“•英特尔3D NAND技术在浮栅结构上进行设计,通过采用更小的单元尺寸和高效的存储阵列,实现更高容量的解决方案,具有高可靠性,对于电荷损失具有高保护性。”英特尔至强处理器和存储事业部总经理Lisa A. Spelman告诉记者。“新的固态盘实现了业内领先的96层TLC的面密度,在该面密度下具有领先的写入性能以及领先的数据保留能力。与上一代NVMe NAND相比,这些驱动器具有全新的PCIe控制器和固件,并且可部署第3代和第4代PCIe,可将延迟降低40%,并将性能提高33%。”Lisa A. Spelman补充说。

首个AI优化的FPGA


在英特尔这系列的产品更新中,最让笔者关注的就是他们这颗新的FPGA。2015年6月,英特尔以167亿美元的价格将当时的FPGA老二Altera收归囊下,他们这个可编程逻辑阵列当作他们硬件阵型的一个重要构成。进入了AI时代,他们对这个产品又有怎样的寄望呢?

英特尔公司副总裁、可编程解决方案事业部总经理David Moore表示,FPGA具有独特的定位,可以为快速创新的客户提供高性能的自定义工作负载。而为了使这些创新者能够提供智能服务,英特尔开发了一种方法,使开发人员能够在其包括FPGA在内的各种产品组合中快速部署AI解决方案。英特尔的芯片和软件产品组合(包括FPGA)可为客户提供从云到边缘的智能服务。

而这次,英特尔则带来了首个针对高带宽、低延迟AI加速所打造的AI优化FPGA产品——英特尔® Stratix 10 NX FPGA 。


据了解,这款FPGA嵌入了一种经过人工智能优化的新型模块,名为人工智能 Tensor 模块。人工智能 Tensor Block 针对人工智能计算中使用的通用矩阵-矩阵乘法或矢量-矩阵乘法进行了调整,其功能旨在实现小型以及大型矩阵的高效工作。与标准的英特尔Stratix 10 FPGA DSP 模块相比,单独一个 AI Tensor 模块就可以达到 15 倍及以上的 INT81 吞吐量。此外,集成内存堆栈可以将大型持久的人工智能模型存储在芯片上,从而降低延迟,并且搭配大型内存带宽,避免大型模型带来与内存受限有关的性能挑战。


值得一提的是,英特尔Stratix  10 NX FPGA 还包括高达 57.8 Gbps PAM4 收发器,以实现多节点人工智能推理解决方案,降低或避免带宽连接性成为多节点设计的限制因素。英特尔® Stratix® 10 NX FPGA 还集成了硬件 IP,例如 PCIe Gen3 x16 和 10/25/100G 以太网 MAC/PCS/FEC。这些收发器提供了可扩展的连接解决方案,以及灵活适应市场要求的能力。

英特尔方面表示,此类FPGA可针对自然语言处理、欺诈识别等具有高计算要求的应用程序为客户提供可定制、可重新配置、可扩展的AI加速。


“英特尔的FPGA和其他应建议其,为客户提供了从云到边缘的智能服务,为了使这些创新者能够提供智能服务,英特尔开发了一种方法,使开发人员能够在我们包括FPGA在内的各种产品组合中快速部署AI解决方案。例如,数据科学家可以利用OpenVINO在不了解FPGA的情况下利用我们的FPGA做推理。他们可以在Tensorflow,Caffe或mxnet等标准AI框架中进行训练,并通过OpenVINO进行一些函数调用,从而在几秒钟内部署该解决方案。”David Moore说。

除了以上硬件更新外,英特尔其他产品也都在有条不紊地推进中。从Lisa A. Spelman的介绍我们得知,英特尔的Xe GPU产品线目前正在开发中;•第三代英特尔Movidius VPU(Keem Bay)目前也处于抢先体验阶段。作为英特尔边缘AI产品组合的最新成员,一种专用于计算机视觉和深度学习推理的AI加速器,Movidius VPU将计算机视觉,相机图像处理和深度学习推理结合到一个独立的SOC中。

至于在去年第四季度收购的Habana,英特尔已经将其整合并强化了产品路线图,调整了软件资源,并向大型CSP送样了Habana的第一个深度学习训练处理器。

随着英特尔不断扩展领先的AI产品组合,更好地满足多样化的客户需求,英特尔也不断通过oneAPI跨架构工具组合帮助开发者简化异构编程的流程、加速性能、提升生产力。凭借这些高级工具,开发者可在英特尔CPU、GPU、FPGA上实现AI工作负载的加速,并使代码可以在目前及未来的英特尔处理器及加速器上得以兼容。

数据的大时代,英特尔万事俱备。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2346期内容,欢迎关注。

推荐阅读


碳纳米管能否拯救摩尔定律?

FPGA与ASIC战火重燃

你不一定知道的英国半导体实力


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

半导体股价|台积电| NAND Flash |晶体管 AI |EDA |中美|封装|射频



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论