股价遭腰斩?英伟达将凭这些产品重返巅峰!

2018-11-22 14:00:07 来源: 半导体行业观察

过去的两个月,对英伟达的投资者来说就是噩梦。

在10月1日的时候,公司的股价报收289.36美元,创造了历史新高。但自那日开始,公司股价急转下滑,在11月15日公布了Q3财报之后,股价更是直接暴跌19%,市值一日之间蒸发两百多亿美金。截止到今日(11月21日),英伟达的股价已经来到了149.08,较之巅峰时候,大幅下滑了48.5%,市值直接腰斩,退回到2017年7月的水平。

英伟达过去一年的股价走势(source:Yahoo Finance)

天风海外表示,从整体上看,英伟达Q3无论是营收、盈利还是指引均不达标:英伟达Q3游戏业务收入同比仅增长13%,主要受到挖矿市场消弭带来渠道库存积压压力,主营业务成长性可能被削弱;数据中心业务同比涨58%至7.9亿美元增速放缓也不及预期;汽车业务营收1.72亿美元,同比涨19%,好于预期但体量尚小。Pro Vision业务同比涨28%至3.05亿美元,OEM&IP业务受数字货币价格滑坡同比跌23%至1.48亿美元。

高盛在最近发给客户的报告中也指出,将英伟达从其“确信买入名单”中移除,称在这只股票上明显判断“错了”,此前大大低估了渠道库存的增加以及游戏业务遭遇的调整。

针对这个现状,英伟达CEO在财报会议上表示, “加密货币热潮的‘宿醉效应’持续时间比我们预期的要长,我们对此也感到很惊讶,但它终究会过去”;该公司全球市场运营执行副总裁Jay Puri在昨日的GTC China 2018大会上也强调,股价的波动一部分是由于刚才谈到的“加密货币市场”的问题,另外一部分是总体经济市场大环境的影响。

他甚至直言:“其实股价并不是我们英伟达去奋斗的目标,我们认为不断推动整个计算的发展是非常重要的。只要我们持续地服务于游戏、高性能计算、人工智能、自动驾驶、智能机器人等另外不断的创新。我们相信这些工作做好了,股价也不是问题”。

从黄仁勋在GTC China 2018上的介绍看来,英伟达似乎也已经从软硬件方面入手,为他们的下一波成长做好了准备。

硬实力一:十年磨一剑的图灵架构

黄仁勋和Sun公司的两位工程师Chris Malachowsky和CurTIs Priem在1993年创立英伟达的时候,初衷是为了研发一种专用芯片,加快电子游戏中3D图像的渲染速度,带来更逼真的效果。在1999年推出GeForce 256,并首次提出了GPU这个概念之后,英伟达就一直以GPU作为公司的核心业务。GPU的出现也彻底改变了事实计算机图形技术。

“十年磨一剑,我们新推出的图灵架构(Turing)正在引领计算机图形技术实现新一轮的突破”,黄仁勋在GTU China 上表示。而按照他之前的说法,这件事他们自2006年发明CUDA GPU以来的一次最大飞跃。

黄仁勋在GTC China 2018会场

黄仁勋在会上表示,不同于Pascal架构GPU只有个基本的处理器(即可编程着色器),图灵包括了可编程着色处理器、RT Core和Tensor Core 三个处理器。当中专注于加速光线追踪的RT Core的引入,更是在行业内引爆了广泛的讨论。

按照黄仁勋的说法,这个核心能够模拟真正物体的光线,在场景周围反射、照亮物体、改变色调,最终呈现在大家眼前。也就是说每秒几十亿的光线让图形栩栩如生,让实时追踪成为可能。行业内的专家也认为,RT Core的引入,大大提高了图灵架构上光线追踪的效率,是的原本需要几万美金DGX Station才能实时运行的功能,在几百美金的图灵GPU上则可以实现,最重要的的是,新架构的性能可能还更高。

“Tensor Core的引入,可以让深度学习、神经网络、人工智能以无疑伦比的速度在GPU上运转”,黄仁勋在会上说。

其实这个核心早在Volta上面就出现了,这是英伟达专门针对深度学习应用而设计的专用ASIC单元,但图灵则是首个将Tensor Core带到消费级别GeForce显卡的架构。从构成上看,它是一个种矩阵乘累加的计算单元,可以在一个时钟周期内实现两个4×4矩阵乘法以及与另一个4×4矩阵加法。也就是在一个时钟周期内可以实现64次乘和64次加。它的加入,对于图形渲染的意义不仅仅在于能大大提升在GPU上基于深度学习方法进行图像处理的效率,同时还让我们拥有更多的计算性能来基于神经网络算法来去处理画面。

黄仁勋在会上强调,Tensor Core有很多用武之地,首先就是它可以生成一些从前一些难以实现的图形(如倒影、阴影)。而DLSS(深度学习超级采样)在当中的作用功不可没。DLSS是一个神经网络模型,运行在Tensor Core上,通过训练这个神经网络模型,让它学会把一个图像做得更美。正是因为有了神经网络模型,经过了多次训练,它就会知道如何对图像进行强化,让它变得更美观。“使用这样的技术,我们可以渲染一个更小的图像,节约算力,充分利用114万亿次的Tensor Core处理器,同时实现高画质和高帧率。”,黄仁勋补充说。

图灵和Pascal的性能对比

除了上面提到这几点外,图灵架构还带来了Mesh Shading,Variable Rate Shading和Texture Space Shading等创新。多项技术加持也让新架构能够获得了超过Pascal 十倍的性能,进而在图形计算上带来更好的体验。

硬实力二:重塑未来的计算

在大会上,黄仁勋一再强调,摩尔定律已经失效。他指出,在戈登摩尔刚提出摩尔定律的前几十年,处理器的性能都是在这个定律的指导下,每十年提升100倍,但进入了最近十年,处理器增加的性能远达不到十倍(只有两到三倍),那么就给需要强大性能的互联网公司带来了巨大的成本增加。更为严重的是,十年之后,因为人工智能的推动,整个行业或许会出现算力短缺的现象。而英伟达在十年前已经预见到了这个局面,在加速计算方面投入,应对算力“危机”。

英伟达的加速运算

他表示,加速计算是一个全堆栈的问题,我们不能只是把GPU或ASIC或其他放在软件之下,就指望性能能提升。我们需要具有重新设计自上而下软件堆栈的专长,为此就必须自下而上的去了解软件、应用、算法,然后自下而上去加速它。而这恰好正是英伟达所擅长的,HGX-2 GPU、Turing T4、AGX是英伟达为这个市场准备好的硬件。

首先看HGX-2,据悉,HGX-2具备 英伟达 NVSwitch互联结构等功能,将 16 个 英伟达 Tesla V100 Tensor Core GPU 连接到一起,形成一个巨型 GPU,单节点中能够提供 2 千万亿次的 AI 性能。HGX-2 还具有 0.5 TB 内存和 16 TB/s 总内存带宽。

英伟达HGX-2服务器

作为一款号称全球最强大的多精度计算平台,HGX-2既可以使用FP32、FP64高精度运算做科学计算、模拟,也可以使用FP16、INT8精度进行AI训练、推理,浮点性能高达2PFLOPS,也就是两千万亿次,这性能在TOP500超算中都能名列前茅的。而在与仅使用 CPU 的服务器相比时,HGX2将 AI 机器学习工作负载的运行速度提升近 550 倍,将 AI 深度学习工作负载的运行速度提升近 300 倍,将高性能计算工作负载的运行速度提升近 160 倍。

在早前获得了富士康、英业达、云达科技、广达电脑、超微、纬创和纬颖等客户之后,英伟达在昨日宣布,HGX2在国内又与百度、腾讯、浪潮、联想、华为和曙光等建立了新的合作关系。英伟达副总裁兼加速计算总经理 Ian Buck 表示:“中国领先的科技公司正在迅速利用史上最强云节点 HGX-2,借助 HGX-2 无与伦比的计算能力和通用性设计,中国以及全球各地的公司现在能够构建全新可扩展的产品和服务,以解决巨大的计算难题和当今一些最紧迫的问题。”

Turing T4云GPU则是英伟达为满足横向扩展的公共云和企业云环境的独特需求,最大限度地提高吞吐量、利用率和用户并发性,帮助客户高效应对用户及数据爆炸式增长的问题而推出的一个产品。这个小巧的 70 瓦特 T4 GPU 大致相当于一条巧克力糖的大小,可灵活适应于标准服务器或任何开放计算项目的超大规模服务器设计。服务器设计的范围可从单个 T4 GPU 直至单节点中的20个GPU。

黄仁勋表示,搜索、社交媒体和在线购物网站等互联网公司是 T4 的早期使用者,也是最大的终端客户群。中国首批开始使用 T4 扩展并提升工作负载横向扩展的企业包括百度、腾讯、京东以及科大讯飞。中国领先的计算机制造商也将推出一系列基于 T4 的服务器,包括浪潮、联想、华为、曙光、浪潮商用机器和新华三等。

硬实力三:用AI帮助实现自动化

AI的兴起,一方面正在帮忙解决医疗等问题,另一方面,实现自动化也是他正在极力推动一个方向。现在无论是机器视觉,还是无人驾驶,都是为了未来的自动化社会而发明的。Xavier则是英伟达面向这些市场做出的伟大贡献。

这款芯片是英伟达在今年一月举办的CES上发布的,据介绍,这是他们专门针对自动驾驶市场开发的一款产品,研发支出也达到了20亿美元。数据显示,这款芯片大小为350平方毫米,含有90亿个晶体管,包括了1个Volta Tensor Core GPU、1个8核ARM64 CPU、2个NVDLA深度学习加速器、1个图像处理器、1个视觉处理器和1个视频处理器七个核心。它每秒可执行30万亿次运算,功率只有30瓦,能效比上一代架构高了15倍,产品目前也已经实现了量产。按照英伟达的说法,这款芯片比竞争对手领先两年。面对不同的自动化应用,英伟达推出了英伟达 Drive AGX和Jetson AGX Xavier两个平台,其中前者是针对自动驾驶,后者则是聚焦在无人配送小车。

英伟达 DRIVE Xavier

首先看一下英伟达 Drive AGX,这是其基于Xavier的产品系列的新名称,产品阵容包括Drive Xavier和新推出的Drive Pegasus。黄仁勋在会上表示,包括小鹏汽车、奇点汽车、SF Motors等新创车企,以及智佳科技、图森未来、Auto X等自动驾驶全栈方案公司都已经采用英伟达英伟达 DRIVE AGX芯片方案。一汽解放、智加科技和满帮集团也联合宣布,就推动中国无人重卡自动驾驶技术的研发和落地,与英伟达建立合作关系。四方将发挥各自优势,加强信息和资源共享,推动无人重卡产业链创新。同时充分利用英伟达DRIVE AGX Pegasus的强大性能,发展完善多传感器融合和人工智能解决方案,推动智能卡车技术开发。

英伟达 Drive AGX 平台下的产品,其中“PX”已更名为“AGX

至于英伟达 Jetson Xavier,则是他们今年六月在台北国际电脑展上推出的产品。Jetson Xavier拥有6种高性能处理器,包括1个Volta Tensor Core GPU、1个8核ARM64 CPU、2个NVDLA深度学习加速器、1个图像处理器、1个视觉处理器和1个视频处理器。这让它成为了下一代配送机器人的选择。

英伟达 Jetson Xavier SOC

据介绍,它具有高性能和高能效,能够实时处理所有这些计算任务,让配送机器人能够安全地自主执行操作。该模块能够以每秒高达 32 万亿次的操作速度,提供强大工作站般的处理能力,其能效比其前代产品高出 10 倍,而尺寸仅有手掌大小。黄仁勋也宣布,在这方面,将于美团和京东等建立深入的合作。

软件是英伟达的核心竞争力

英伟达的高管在昨日接受半导体行业观察等媒体采访的时候,一再强调,公司在软件方面的竞争力。他们表示,其他无论任何竞争对手,在软件方面与其竞争的时候,软件很多时候都会成为他们的木桶短板。

以谷歌TPU为例,Jay Puri表示,搜索巨头推出的这款芯片只能处理某种AI模型,但我们知道,AI现在还处于要发展的非常早的阶段,新的AI框架、模型会不断的涌现,这就限制了TPU的发展。但英伟达提供的是非常顶层的支撑型的加速计算的平台,他可以支持未来新出现的各种各样人工智能的框架或者模型。在编程方面、我们也有很高的灵活性,这一块也是我们的优势。

而在谈到英伟达的软件的时候,我们不得不提英伟达在2006年推出的CUDA。

根据维基百科,这是由英伟达所推出的一种集成技术,是该公司对于GPGPU的正式名称。透过这个技术,用户可利用英伟达的GeForce 8以后的GPU和较新的Quadro GPU进行计算。亦是首次可以利用GPU作为C-编译器的开发环境。从某个方面说,英伟达今天的独霸一方与cuda的成熟不无关系。黄仁勋也表示,英伟达CUDA SDK 的下载量已接近 1400 万,仅去年一年既已达到 600 万。我们在每一代产品上都不断扩展,丰富其能力,为开发者赋予跟多的活力。

他们今年九月份推出的,面向Machine Learning(机器学习)、大数据处理市场的开源GPU加速平台RAPIDS则是公司的另一软件“武器”。据介绍,RAPIDS开源GPU加速平台构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带来了GPU提速。测试显示,与仅有CPU的系统相比,RAPIDS速度快50倍,这可将数据科学家的数据处理时间从数天减为数小时或从数小时减为数秒。报道指出,RAPIDS已为GPU加速分析和机器学习提供了一整套开源库,数据可视化即将是其下一个目标。

上周发布的NGC-Ready计划让采用基于英伟达GPU 的强大系统的客户能够在更广的范围内放心地部署 GPU 加速软件。 在昨天的 GTC China,英伟达发布了更多来自中国领先计算机制造商的全新 NGC-Ready系统。英伟达在软件方面还有很多其他不错的产品,在这里我就不再一一细数。

纵观现在的行业发展现状,无论是前文提到的外部经济环境和市场影响,或者是华为进入AI芯片领域,都或多或少地给英伟达带来冲击。在这波下行之后,他们能否凭借上述的产品卷土重来,那就看他们在未来如何打这些牌了。当然,时刻关注竞争对手的表现是必须的。

责任编辑:Sophie
半导体行业观察
摩尔芯闻

热门评论