[原创] 英伟达人人“凡尔赛”

2020-12-16 14:01:04 来源: 半导体行业观察


很遗憾,英伟达CEO黄仁勋缺席了昨天的GTC CHINA大会,作为英伟达一年一度的大会,并且极其看重中国市场的英伟达,“教主”级别的人物没有惯例露面,还真是让整个大会寡淡了许多。

看完主论坛以及高峰论坛的我,突然顿悟,虽人未到,但隔着一个大洋洲,我都感觉到黄教主皮衣下藏着的小心思。

“我不出现,不代表没有我”


公元2020年12月15日,我必须在日期前加上“公元”,因为我的小宇宙感受到黄教主想在这天创造一个改变产业的定律——“黄氏定律”(Huang’s Law),即便我知道黄氏定律一词在媒体上已经传播好几年,但黄教主都没有亲自说出口。

“摩尔定律已死,新的定律正在形成,由于技术的飞速进步,图形处理单元(GPU)有其自己的发展定律。”几年前的黄教主已经疯狂暗示,训练有素的科技圈记者们点头示意。但黄教主终归不好意思自己说出口,你看人家戈登摩尔,有在论文上写“我今天创造一个摩尔定律”这句话吗?最好的方法,就是借他人之口,这个“他人”就是英伟达首席科学家Bill Dally。

皮衣没有出现,带货的性感姿势没有出现,“黄氏定律”出现了。一个本人都不要开口,却充满凡尔赛味道的定律出现了。

摩尔定律也不是摩尔一个人说有就有的,而是通过英特尔数十年的努力,来达到预期,所以才能闪耀半导体历史,并且死去活来。听Bill Dally的说法,“黄氏定律”也是如此。

英伟达首席科学家Bill Dally

屏幕中的Bill Dally以三个项目为例,讲述了自己带领的200人的研究团队如何成功实现“黄氏定律”——预测GPU将推动AI性能实现逐年翻倍:“如果我们真想提高计算机性能,黄氏定律就是一项重要指标,且在可预见的未来都将一直适用。”

NVIDIA助力 AI推理性能每年提升一倍以上

此前,Dally曾负责NVIDIA在AI、光线追踪和高速互连领域的相关研究。

二号凡尔赛玩家必须是Bill Dally,此人拥有120多项专利,在2009年加入NVIDIA之前,曾任斯坦福大学计算机科学系主任。当然我要说的是,全天下玩AI芯片的那么多,为什么且凭什么是你英伟达的GPU推动AI性能逐年翻倍,都不给其他GPU玩家,甚至AI芯片玩家机会?如此想来,Bill Dally秀的每一个技术背后的参数都是凡尔赛,且闪耀整个巴啦啦小魔仙芯球。

首先是一种名为MAGNet的工具,据介绍,其生成的AI推理加速器在模拟测试中,能够达到每瓦 100 TeraOPS 的推理能力,比目前的商用芯片高出一个数量级。资料显示,MAGNet采用了一系列新技术来协调并控制通过设备的信息流,最大限度地减少数据传输,而数据传输正是当今芯片中最耗能的环节。这一研究原型以模组化实现,因此能够灵活扩展。

另外,还有一项以更快速的光链路取代现有系统内的电气链路的研究。

Bill Dally表示:“我们可以将连接GPU的NVLink速度提高一倍,也许还会再翻番,但电子信号最终会消耗殆尽。”该团队正在与哥伦比亚大学的研究人员密切合作,探讨如何利用电信供应商在其核心网络中所采用的技术,通过一条光纤来传输数十路信号。

这种名为“密集波分复用”的技术,有望在仅一毫米大小的芯片上实现Tb/s级数据的传输,是如今互连密度的十倍以上。

除了更大的吞吐量,光链路也有助于打造更为密集型的系统。Dally举例展示了一个未来将搭载160多个GPU的NVIDIA DGX系统模型。

软件方面,NVIDIA的研究人员开发了全新编程系统原型Legate。开发者借助Legate,即可在任何规模的系统上,运行针对单一GPU编写的程序——甚至适用于诸如Selene等搭载数千个GPU的巨型超级计算机。

Legate将一种新的编程速记融入了加速软件库和高级运行时环境Legion,目前它正在美国国家实验室接受测试。

Bill Dally语速颇快,迅速的介绍完英伟达的项目,随后便是一场线上圆桌式的高峰论坛,与其说是论坛,不如说是大型凡尔赛飙车现场。

凡尔赛圆桌


包括主持人在内的5位嘉宾,都是在来自英伟达,分别是英伟达亚太区销售与营销副总裁Raymond Teh、英伟达全球业务运营执行副总裁Jay Puri、英伟达企业市场兼开发者计划全球副总裁Greg Estes、英伟达医疗业务全球副总裁Kimberly Powell、英伟达亚太区战略运营与合作伙伴副总裁Ashok Pandey。


这阵容,一唱一和,连上地球wifi,看直播的火星观众都直呼内行。

关于Arm,Jay Puri首先猛夸Arm,比如每年销售220亿个CPU,比如开创了IP许可模式,比如在移动端和嵌入式领域非常成功。这可以理解,毕竟是我英伟达看中的人,能有差的?

随后话锋一转,为什么高通、博通、Marvell都尝试用Arm进军通用市场和云数据中心市场,为什么都失败了呢?Jay Puri认为,Arm技术没有问题,问题在于生态,所以的应用领域都是围绕X86生态建立的,Arm想要撬开一个口子,并大放异彩太难。

接着,又话锋一转。咱英伟达生态牛逼啊,未来数据中心的工作负载都围绕加速计算和人工智能,英伟达平台成熟,拥有可用的完整堆栈,且必要的生态伙伴都囊括了,还有200万开发者。Jay Puri还许下诺言,一旦收购成功,将着重布局Arm在数据中心的成功,会有一个X86的替代方面。

医疗方面,Kimberly Powell口中的英伟达简直赛华佗,“如今一个季度产生的数据规模,比大多数制药行业300年积累的数据还要多。”Kimberly Powell这句话打开了医疗话题的话匣子:“研发新疗法和疫苗的周期太长,有时即便投入10年20亿美元的成本,最终也只是10%的成功几率。”

Kimberly Powell强调了数据防御系统建立的必要性。随后话锋一转,介绍了超级计算机DGX SuperPOD和Clara Discovery平台。

其中,DGX SuperPOD系统以借助NVIDIA Mellanox HDR InfiniBand网络互联的20个模块来销售,AI性能最低可达到100 petaflops,最高可达700 petaflops,可运行最复杂的AI工作。此外,英伟达今年宣布的Cambridge-1建造计划,是一款80节点的DGX SuperPOD,具备400 petaflops 的AI性能。今年年底一经部署便将成为英国最快的超级计算机。该系统将被用于英国学术界、业界和初创企业在AI和医疗健康领域的合作研究。

Clara Discovery是专为 NVIDIA DGX 优化的先进工具套件。包含多种框架、应用程序和 AI 模型,可实现 GPU 加速的药物研发,支持的研究领域涵盖基因组学、蛋白质组学、显微镜学、虚拟筛选、计算化学、可视化、临床成像和自然语言处理(NLP)。

在与中国的云服务提供商(CSP)的合作中,Ashok Pandey用中文介绍了合作情况,他表示,与中国CSP已经合作七年多,从一开始的深度学习训练,到现在云服务。英伟达还声称,多家中国顶级云服务提供商及系统制造商纷纷采用NVIDIA A100 Tensor Core GPU和NVIDIA技术,为企业和行业的各类AI应用提速。

今年5月,英伟达推出了首款基于NVIDIA Ampere架构的NVIDIA A100 Tensor Core GPU。迄今为止,包括阿里云、百度智能云、滴滴云、腾讯云等在内的众多中国云服务提供商纷纷推出搭载了NVIDIA A100的多款云服务及GPU实例。

A100 GPU配备了具有更高精度的第三代Tensor Core核心,性能较上一代产品有显著提升。可提供600GB/每秒GPU间连接传输速率的第三代NVIDIA NVLink、NVIDIA NVSwitch、PCIe Gen4与NVIDIA Magnum IO软件SDK的组合,可实现成千上万个GPU集群的高效扩展,这些技术得到了来自于NGC容器注册中NVIDIA市场领先生态系统的支持。

在A100得到中国云服务提供商的迅速采用之外,最新发布的NVIDIA A100 PCIe版本以及NVIDIA A100 80GB GPU也迅速成为了包括新华三、浪潮、联想、宁畅等在内的中国领先系统制造商的首选。

如果是前几年,这些技术的厉害之处还得靠凡尔赛一号玩家黄教主来说出口,但由于黄氏定律官方发布的避嫌问题,我们有幸看到了英伟达内部各路凡尔赛高手登场。整个GTC CHINA2020大会,也随着笔者抽奖抽到三次“谢谢参与”而结束,科技发展本就如一场梦。GTC大会,一场被大佬洗脑却又无法反驳,只想静静思考穿皮衣是否真的有助于治疗脱发的大会。凡尔赛的英伟达:科技就是这么枯燥且乏味。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2525内容,欢迎关注。

推荐阅读


三星“死磕”台积电

当全球半导体都在自主可控

汽车芯片厂商实力不完全盘点


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

ICCAD2020| 存储|晶圆 |华为 |汽车芯片|联电|高通|射频|封测

回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论