[原创] 清微智能可重构架构的进击之路
2021-02-02
14:00:15
来源: 半导体行业观察
在与清微智能CEO王博交流的过程中,他一再向笔者强调:“清微智能芯片的最大特点就在于其基于粗粒度可重构架构设计的芯片,这对于AI算法在当前和未来还将持续演进的现状,是非常之有意义的。”
王博进一步指出,所谓的粗粒度可重构计算(Coarse-grained Reconfigurable Architecture CGRA),是一种全新的芯片架构技术,可根据算法和应用的不同灵活配置硬件资源,执行不同的任务,同时具备通用芯片的灵活性和专用集成电路的高效性。据2015年国际半导体技术发展路线图(ITRS)的预测,CGRA是未来最有发展前途的新兴计算架构之一。而成立于2018的清微智能也在短短几年间发展成为这个领域扛大旗的企业之一的。
之所以能达成这样的成就,按照王博介绍,这主要得益于公司的初创团队过去多年在这个领域的研究。
据维基百科,早在上世纪六十年代,就有专家提出。但受限于当时的技术水平,可重构在当时并不能实现,但这种思路一直被行业所铭记,而上世纪八十年代面世的FPGA可算得上是“可重构”概念的产物。
踏入最近十几年,科学技术快速发展,新兴应用层出不穷,算法也日新月异。与此同时,高性能芯片的研发成本与日俱增,这就让产学研都加倍重视相对灵活的可重构架构,尤其是进入21世纪第二个十年,人工智能的快速兴起,吸引了全球对可重构的高度关注。例如美国DARPA在2018年启动的“电子复兴计划”(ERI)中就提到要研发具有软件和硬件双编程能力。
作为对比,国内顶级学府清华大学也早在2006年就成立了可重构计算实验室,在魏少军教授和尹首一教授的带领下开启了中国可重构芯片的研发历程,并在此过程中取得了耀眼的成绩,这比美国足足早了十几年。
相关资料也显示,该团队先后在2016年和2017年分别推出了Thinker-I、Thinker-Ⅱ及Thinker-S等基于CGRA结构的加速器芯片。据笔者了解,清华大学团队所使用的CGRA架构是一种无指令驱动的可重构计算架构,由数据流驱动,面向异构的空域计算,将软件通过不同的管道输送到硬件中来执行功能,能实时地根据算法和产品的需求改变硬件资源,从而以更高的资源利用率和数据复用率去计算特殊需求,在合理分配和使用算力的同时,成倍节约数据存储和传输带宽。
微信公众号mikesiroom的作者在其文章中也指出,传统AI加速器通常面向如卷积和矩阵乘累加等深度学习算法的核心部分,但在诸如pooling,normalization,softmax等运算上,要么依赖CPU端进行运算,要么借助专门的硬件模块。但在这两种方案中,前者性能不高,后者面积较大。但清华大学团队的Thinker的解决方案是通过对PE阵列的动态配置,以相同的硬件支持全部深度学习的的功能。这样就能让基于CGRA的芯片获得更好的PPA,给端侧设备带来重要的价值。
“在经历了十几年的研究之后,他们决定把这个技术转化,并在2018年成立了清微智能”。清华大学可重构计算实验室的负责人之一、清微智能的首席科学家尹首一教授在一次采访中告诉半导体行业观察记者。他进一步指出,这种全新的芯片架构技术,可以根据不同的算法和应用需求灵活重构硬件资源,同时具备了通用计算芯片的灵活性和专用集成电路高效性的特点。
虽然与上述的FPGA都属于可重构技术,但从王博的介绍我们得知,CGRA与FPGA有三点主要的区别:
第一、FPGA的运算过程其是通过查找表来完成的,需要大量的结果预存,对存储器的要求要特别大,同时,在计算的过程中需要频繁的访存,会产生大量的功耗;CGRA是基于数据流运算,不需要大量的存储器开销,在寄存器直接传导数据,能量效率高;
第二、FPGA基于查找表的执行方式实现细粒度的运算,使得运算过程中内部电路关键路径长,主频没法做高,同时,会耗费大量功耗;而CGRA是一种空域计算,数据计算过程中可以并行进行,关键路径短,计算频率可以很高。
第三,FPGA是一种静态重构,应用发生改变时,重构的过程是需要重新烧制,是一种离线的过程,需要较长时间,而CGRA是一种动态的重构过程,算法和应用发生改变时,在运算过程直接重构,时间开销是微秒级,这过程甚至不会被察觉到。
“CPU采用指令集方式,实现了通用计算,但是他们的计算过程,让他们能效有损失,在与他们相比时,我们的架构拥有1000倍的能耗比优势;FPGA采用了查找表的方式工作,带来资源的浪费,与他们相比,我们的能耗比也高了100倍;GPU采用单指令多数据的运行架构,但受限于指令集读取的模式,我们相比他也有10倍左右的优势”,尹首一教授曾经用形象的数字将可重构计算与其它几种技术路线的性能做过对比。
在多年技术积累的助推下,清微智能在成立仅一年之后,就推出了全球首款可重构超低功耗语音人工智能芯片TX210。据介绍,这是一颗采用台积电40nm ULP工艺制造的的芯片,能够支持离线语音唤醒、5个唤醒词、10个命令词以及声纹识别。此外,这颗芯片还能够支持3到5米的原厂语音唤醒和识别。然而其芯片的工作频率仅为50Mhz,延迟更是不到10ms。
因为是一颗面向端侧,甚至电池供电产品的芯片,TX210在功耗方面也有不错的表现,这主要得益于公司在设计该芯片时候引入的多级功耗唤醒模式。据介绍,这颗芯片只有在通过麦克风检测到人声时才会被激活,也仅有在准确监听到“唤醒词”后,才会去唤醒处于休眠状态的主控处理器芯片。这就帮助把芯片的工作功耗控制在2mw内,而语音语音活动检测(Voice Activity Detection,VAD)功耗也降至100uW内。
作为一款CGRA架构的芯片,TX210拥有极高的灵活性,不但能够支持多比特DNN神经网络,还可以支持1到16bit位宽的神经网络运算以及FFT/MEL FILTER等。
王博则表示,TX210的推出,符合他们作为一个初创公司的定位。在他看来,初创企业的发展,要遵循从小投入到大投入的原则,这也是清微智能选择首先从做投入较少的语音芯片TX210开始的原因。“因为语音芯片要求没那么高,外围单元需求也相对少,频率低,工艺节点也低”,王博补充说。
他进一步指出,TX210无论是在算力,还是能效方面,都有比较大的优势,这让他们有足够的底气与客户一起,将这颗芯片推向了智能耳机、智能手表、智能家居和平板等行业。据透露,TX210目前的出货量已经达到了百万级别。
在语音芯片上旗开得胜之后,清微智能顺势带来了全球首款可重构多模态智能计算芯片TX510。
从相关资料可以看到,TX510 是一款面向 IoT 设备的超低功耗视觉处理芯片,以可重构架构设计,能实现高性能计算,低功率消耗的超强能效比,峰值算力达 2TOPS。正是基于这样的设计,客户如果想开发系列产品,或者在市场竞争中用差异化的的产品来获得优势,就可以TX510上做便捷开发,而不用做太多改变。
来到算法模型支持方面,TX510支持 AlexNet、GoogleNet、ResNet、VGG、Faster-RCNN、Yolo、SSD、FCN 和 SegNet 等主流神经网络;同时还内置 3D 引擎,可实现人脸识别、物体识别、手势识别、目标跟踪等功能,可应用于智能安防监控、智能家居、新零售等领域。
在笔者与王博的交流中,他多次谈到了TX510的可重构优势,同时因为公司在编译工具链上的投入,那就意味着开发者不用理解CGRA硬件层面的工作原理,可以保持原有的开发习惯就好,让开发者可以很快上手。他同时还指出,这个芯片因为集成了多种存储、外设接口丰富,同时还提供丰富的开发资源,这就使得基于其开发产品拥有开发周期短和投入人力少的优势。
“基于TX510运算特性,自动输出包含剪枝参数,低比特参数在内的最优模型优化策略,使开发者的算法模型最高效率的运行在TX510芯片上,并保持出色的低功耗性能。也提供包含人脸识别,ADAS,视频监控,智能家居等多种应用场景的完整解决方案,客户可快速完成相应场景的产品开发。”王博强调。
从当前的竞争格局来看,TX510基本上算是市面上能效比最高的视觉芯片(也可以称为有效算力高),这主要是因为可重构计算架构能根据算法和应用改变硬件资源,所以可以集中硬件资源去计算特殊需求(MCU和其它的图像AI芯片在计算时有很多不必要的数据搬运,消耗大量资源)。上述灵活性与低功耗正是TX510获得客户认可的两个关键点。
“TX510从2020年10月份正式量产,迄今为止累计出货量50万颗”,王博告诉记者。
毫无疑问,可重构架构是一个很有前景的技术。清微智微在语音和图像AI芯片上的梅开二度也一再证明了可重构的潜力。但王博表示,无论是对于可重构,还是清微智能,现在离他们想要实现的目标还有一段距离。他首先以可重构架构在AI芯片市场应用为例,说明了可重构面临的一些挑战。
“虽然我们在可重构芯片上的软件、工具链上做了很大的努力,但作为一个初创企业,我们目前能做的也只是满足大部分用户的需求,不得不承认,离真正发展成熟,还需要一段距离”,王博说道。他同时也指出:可重构架构的特性,让其可以在多个领域发挥作用,其具有的天然的可扩展性,可通过算力扩展,将高能效,灵活性的特点更好的发挥出来,因此,也非常适合做数据量更大的训练芯片。公司也在做积极布局云端市场,团队早在数年前就开始做技术预研和芯片验证,同样功耗下更高算力等多个实验指标保证公司可快速进入服务器和云计算市场。
“我们认为,可重构架构正在就朝着更通用的方向前进,可以运行更多的算法,代替DSP和CPU等传统架构去做更多的事。这里说的代替是高层次的代替,用更高的性能和更高的能效朝着这两个方向前进”,王博表示。
在与王博的交谈中,他多次强调,清微智能从来没有把自己定义为一家AI芯片公司,而是恰好AI市场的发展,让公司的可重构架构找到了一个落地的场景。这正与他所说的“清微智能的发展方向以可重构架构为核心,在某些具体赛道上为客户提供芯片及解决方案,”的观点相契合,目前来看,这些赛道是指那些对语音或图像等有持续大计算量需求的领域。
回看芯片产业的发展,在摩尔定律的指导下,芯片的处理能力与以前相比有了指数级别的增长。但到了现在,受限于材料与制造水平,芯片不能再像以往那样通过简单的微缩来实现性能的提升。然而,人工智能等新兴应用对芯片性能的增加依然有很高的需求。为此探索新的解决方案,成为了行业追逐的重点。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2573内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
晶圆|MCU
|射频|封测|美国|苹果|华为|汽车芯片
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!
责任编辑:Sophie