来源:内容由半导体行业观察(icbank)
编译自「Forbes」,
谢谢。
长久以来,我为深度学习方面的创新倍加惊讶。GraphCore,Habana Labs,Cerebras,Blaize,Groq,Perceive等公司现在正在携带全新想法进入这个市场。最近,来自加拿大多伦多的Tenstorrent成为其中的一员。
按照当前的AI芯片竞争格局,每个新进来的挑战者都必须从竞争者不断增长的领域中寻找最佳的替代方案,因为到2025年,这将成长为一个高达250亿美元的芯片业务:Cerebras 发表了不可思议的举行芯片;Groq表示,他们可以在具有单核的芯片上实现petaflop;现在,Tenstorrent声名鹊起,并有可能赢得王冠的全部,因为他们的方案能够减少获得良好答案所需的计算量,而不是在问题上投入大量的蛮力计算。
按照Tenstorrent CEO Ljubisa Bajic的说法,这主要得意与他们一个被称之为fine-grained conditional computation的技术,而现在正是一个开启全新优化的时刻。值得一提,Ljubisa Bajic曾担任Nvidia高级架构师,曾担任AMD集成电路设计总监。公司的联合创始人还包括AMD前嵌入式工程师Ivan Hammer和AMD固件设计工程师Milos Tajkovic。
除其多伦多总部外,该公司还在奥斯汀,德克萨斯州和硅谷设有办事处。它得到了Eclipse Ventures和Real Ventures等投资者的支持,他们在2017年8月的A轮融资中贡献了1250万美元,在2月的B轮融资中贡献了2070万美元。
什么是条件计算(conditional computation),它能做什么?
有多种形式的条件计算,但原则上它们都归结为一个前提:不要计算您不需要或已经知道的东西。例如,将数字乘以零是没有意义的。不要浪费时间和精力,因为您已经知道答案当然是零。但是,如何设计芯片以避免这种情况呢?通常,此示例由在执行之前修剪神经网络的软件处理,以避免要求硅片进行乘法运算。但是,在运行时需要避免的更复杂的情况又如何呢?研究人员一直在研究它,并相信它具有潜力。
哈佛大学的一个团队已经证明Resnet50的性能提高了1.9倍,原始精度达到了98%。
但是,对该概念的更广泛使用则要求芯片变得足够“聪明”。在Tenstorrent提供的示例中,这个被称为Grayskull的新芯片可以检测到足够接近准确答案以停止处理网络,这被Bajic称为“早期(模型)退出”。该公司已经证明了该概念在用于图像处理的卷积神经网络(convolutional neural nets)以及用于语言处理的循环网络(ecurrent nets)中效果很好。当然,除了条件计算能力外,芯片还有更多功能。他们的设备具有片上CPU和快速GEMM(矩阵乘法)内核,可提供出色的性能。
根据Tenstorrent的数据,在75W总线供电的PCIE卡上,Grayskull可以做到368TOPS的运行能力,并且在条件执行的情况下,使用BERT-Base的SQuAD 1.1数据集可实现高达23,345句/秒的性能,使其性能比当今的领先解决方案高出26倍 。我经常说,并坚信将需要3-5倍甚至10倍的优势来帮助激发挑战现状的生态系统。26X当然可以胜任。预计今年晚些时候,他们将推出300W版本的卡。
尽管该公司声称Grayskull是世界上最快的芯片,但许多公司都在争夺该称号,在我看到一些真正的应用基准测试(例如mlperf)之前,我将保留观点。但是Tenstorrent对此公告肯定引起了我的注意,并且需要密切关注。在我看来,这一宣布标志着从具有许多快速内核,片上存储器和结构的芯片(描述了迄今为止的大多数参与者)向一种新的智能计算方法转变,该方法包括所有软件,培训和推理芯片。协调网络知识以减少计算量。
Bajic表示,Grayskull正在给合作伙伴送样,预计将在2020年秋季投入生产,它所使用的条件执技术可以促进更快的AI推理和培训,并支持从数据中心到边缘设备的工作负载扩展。该系统具有Tenstorrent专有的120个Tensix内核,每个内核都包括一个高利用率数据包处理器,一个可编程单指令多数据(SIMD)处理器,一个密集的数学计算块和五个精简指令集计算机(RISC)内核。它们与自定义环网互连(一种无开关网络拓扑结构(switch-less network topology),用于高效地并行连接处理节点)连接在一起。
Grayskull将Tensix阵列与120MB本地SRAM和八个通道的LPDDR4配对,这些通道最多支持16GB的外部RAM(跨PCI-E Gen 4的16条通道)。并将在今年晚些时候投入生产。毫无疑问,它将是高通公司
Cloud AI 100
边缘计算卡中的一个竞争对手,该卡的最大速度远远超过每秒100万亿次操作(TOP)。特斯拉去年四月
详细介绍
了三星制造的芯片组,该芯片组具有144个TOP。百度的最新昆仑AI加速器可提供多达260个TOPs。
在应用市场方面,Tenstorrent计划瞄准数据中心,公共和私有云服务器,本地服务器,边缘服务器以及汽车和其他市场。Bajic计划在今年的虚拟Linley Spring Processor Conference上的一次演讲中透露更多信息。
在更好的情况出现以前,蛮力是伟大的,我认为Tenstorrent确实做到了。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2273期内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
存储|射频
|CMOS
|
设备
|FPGA
|晶圆|苹果|海思|半导体股价
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!