[原创] 燧原科技发布首款AI训练芯片

2019-12-13 14:00:09 来源: 半导体行业观察


去年8月,一家名不见经传的初创公司宣布Pre-A轮融资3.4亿元人民币,腾讯领投,震惊了业界。 当业内人士想进一步了解这家公司,却发现这家公司极其低调。

今年6月,这家公司在整个大环境感受到资本寒意的时候,又宣布获得红点中国领投的新一轮融资3亿,随即又悄无声息。

本周三,这家一直行事低调的公司,一改往日风格,大张旗鼓地举办了一场新产品发布会,并邀请了一众业界大佬现场背书。 这家公司就是燧原科技,在本次发布会上推出其首款人工智能训练产品 “云燧T10”,基于其自主研发的高性能通用训练芯片邃思。

据启信宝显示,腾讯科技现在持有燧原科技23.2%股份,是后者的第一大股东。


AI训练芯片的挑战者


根据功能的不同,现在的AI芯片可以分为两类,分别是训练芯片和推理芯片。 按照清华大学发布的《人工智能芯片技术白皮书》的定义,所谓训练是指在已有数据中学习,获得某些能力的过程; 而推断过程则是指对新的数据,使用这些能力完成特定任务(比如分类、识别等)。 对神经网络而言,训练过程就是通过不断更新网络参数,使推断(或者预测)误差最小化的过程 ; 推断过程则是直接将数据输入神经网络并评估结果的正向计算过程。 而燧原科技聚焦的是AI训练芯片——一个被英伟达“高度”垄断的市场。


在半导体行业观察之前的文章中我们有谈到,英伟达之所以能在AI训练芯片市场取得如此高的份额,主要得益于他们在硬件平台GPGPU、高性能编程工具CUDA以及相关开发者生态的投入。 他们也逐渐在这个领域建立了绝对领先的优势,就连强大的谷歌TPU在公开市场也难以撼动英伟达分毫。

燧原科技创始人赵立东先生


但在燧原科技创始人赵立东先生看来,目前的云端训练市场并没有满足市场的需求,主要体现在以下四个方面: 第一,市场需要专为AI设计的芯片架构; 第二,云端训练市场被垄断,价格贵; 第三,封闭的生态导致依赖性严重; 第四,技术支持无法满足市场的差异化需求。


“这四点制约了中国人工智能产业的发展”,赵立东表示。 “我认为打造一个高能效比、高利用率、满足算力提升需求且高性价比的训练方案是一个必然发展趋势”, 他进一步指出。


“做大芯片,拼硬科技,以国产自主创新的核心技术和解决方案,为数据中心打造云端AI训练和推断的加速平台,是我们的创立燧原科技的目标 ”,赵立东强调。 而从燧原科技名字的由来,我们也可以看到这个北京汉子的雄心。


据赵立东先生介绍,所谓“燧”则源自于“燧人氏”,这个来自于中国上古神话的人物发现了“火”,开启了人工取火的时代。 公司取名为“燧原”,则寄托了赵立东“点燃智慧之火,芯火可以燎原”的初心。 而雄厚的技术团队,则是赵立东的底气。


公司创始人兼CEO赵立东曾在硅谷工作超过20年,担任过AMD计算事业部高级总监和产品工程部高级总监等职位,负责CPU/APU产品规划,市场分析及拓展和CPU/GPU/APU及多个相关核心IP的研发; 2014到2017年间,也历任了紫光通信科技集团有限公司副总裁、紫光集团旗下锐迪科微电子公司总裁和紫光集团有限公司副总裁等职位。


燧原科技创始人兼COO张亚林先生

公司的另一位创始人兼COO张亚林先生则于2008年加入AMD,历任资深芯片经理、技术总监。 曾经作为全球芯片研发主要负责人之一,在AMD上海研发中心成功领导开发并量产了多颗个世界级芯片,拥有丰富的工程和产品化实战经验。 其中包括领导全球团队为微软(Microsoft)定制开发了XBOX-ONE系列主芯片; 领导开发了全球目前最大的融合芯片APU,并一次量产成功,该款芯片成功用于小霸王最新发布的Z+游戏电脑。 他还曾参与创立、发展和管理了AMD上海研发中心融合芯片部门、AMD北京研发中心以及AMD中国多媒体IP部门。


在这两个人带领下,公司打造了一支拥有10年以上的高端芯片及相关软件生态系统的开发及量产经验,有着丰富的工程和产品化实战经历,成功开发并量产过多颗大型芯片的研发团队,走上了“征战”之路。


12nm芯片初露锋芒


承载着创始人的期望,燧原科技在2018年3月宣告成立,公司也于次月开始投入AI芯片的研发。 据张亚林先生介绍,从开始研发,到设计完成,燧原科技只用了七个月。 而仅仅13个月之后,燧原科技的首款AI芯片就已经正式流片, 这就是他们的邃思DPU。


这是一款使用格芯12nm FinFET工艺打造的芯片,拥有2019个pin脚,在480mm²的Die上面集成了141亿个晶体管,能够支持CNN/RNN等网络模型和丰富的数据类型(FP32/FP16/BF16/Int 8/Int 16/Int 32等)。 据张亚林介绍,邃思还是国内首款支持BF16的AI芯片。

燧思


作为一颗从可重构理念出发,基于燧原科技自身的指令集和架构设计的芯片,除了领先的计算单元以外,邃思还使用了2.5D高级立体封装,集成了全世界领先的ESL高速片间互联接口、HBM存储接口和第四代PCIe接口,这些都是针对当下AI市场数据量日益暴增的市场现状而设计的。


其中两通道的HBM存储接口,每通道能提供1024链路,每链路速率为2Gbps,总共提供了512GB的接口带宽。 这就让邃思的32个通用可扩展神经元处理器(SIP)组成的四个可扩展的智能计算群(SIC,每个计算群八个SIP)通过HBM实现高速互联,通过片上的调度算法,让数据在转运的过程中完成计算,最大化地可利用SIP。


而邃思芯片用到的2.5D高级立体封装技术难度极大,国内少有公司能够驾驭,这一切都得益于公司研发团队过去的深厚的研发经验和积累; 四通道的ESL片间互联接口每通道有八条链路,每条链路的速率做到了25GB/s,总共提供双向200GB的接口带宽,这可以满足E级数据中心规模部署需求; 至于其配备的第四代PCIe高速接口则支持16条链路,每条链路的速率为16Gbps。 这就给邃思带来了双向64GB的接口带宽,能够满足当下主流的AI服务器的需求; 此外,这个芯片还集成了系统管理模块、启动管理、功耗管理、可靠性管理和安全管理等功能,能为其提供更多的保障。


基于这颗芯片,燧原科技还推出了其首款人工智能训练产品“云燧T10”。

云燧T10内部细节


据介绍,这是一款面向云端数据中心的人工智能训练加速卡,双槽位标卡,支持PCIe 4.0。 其独特的25GB双向背板互联方案有别于业内通用的InfiniBand组网,在相同的互联带宽下,较大幅度降低组网的复杂度和成本。 其单卡的单精度算力也大到了20TFLOPS(FP32),半精度及混合精度算力更是高达80TFLOPS(BF16/FP16)。 但最大的功耗仅为225W,这个能耗比在业内是极其领先的。


在模型方面,云燧T10支持CNN、RNN、LSTM和Bert等常用人工互联模型,可用于图像、流数据和语音等训练场景。 在ResNet -50的实际性能测试中,云燧T10可以的FPS是518、FPS/Watt为2.3。 与友商的旗舰产品相比毫不逊色。


为了满足不同客户对深度学习的训练需求,燧原科技基于云燧打造了单节点模式 、单机柜模式和集群模式三种分布式训练方案。


其中单节点模式是在单台服务器内以标准PCIe卡方式,提供4到8张云燧训练加速卡,满足小型深度学习训练需求; 单机柜则以整个机柜的方式提供AI算力,适用于中大型企业、院校和科研机构等深度学习训练场景; 集群模式则是以ESL高速偏间互联为核心,可提供1024节点大规模集群。 据介绍,在1024集群规模下,深度学习训练线性度可以做到业内领先的86%,能为云端的深度学习训练、超算中心等超大规模场景提供支持。


值得一提的是,前面两种模式都可以平滑地向后扩展,满足客户的不同性能需求。

张亚林表示,燧原科技的芯片和板卡之所以能够展现出如此优秀的实力,与他们自主研发的计算及编程平台“驭算”有重要的联系。


从他的介绍我们得知,驭算主要包含了分布式调度、软件开发包(SDK)和设备驱动层,并提供Benchmarks等,能够降低开发门槛。 同时还兼容TensorFlow、Pytorch、MXNet和ONNX等主流框架(目前只支持TensorFlow,下一阶段支持其他三个),支持C/C++算子编程、支持基于LLVM的编程工具链、支持基于GDB算子调试器和性能分析器,提供算子、指令集优化和开放硬件加速能力。 这就可以让开发者可以将其已有训练系统,无缝迁移至邃思平台上运算,而不需要二次开发或者模型转换工作。


“未来,我们的软件会从支持一个AI框架走向支持更多的AI框架,同时在可靠性、完整性、易用性方面不断补齐”,赵立东强调。


瞄准三大市场


在打造了如此优越表现的软硬件出发,燧原科技开始向市场发起猛烈攻势。


赵立东先生表示,燧原科技主要瞄准的的云服务商(公用云、私有云和混合云)、行业服务商(金融、保险、医疗、交通等)和AI超算中心和智慧城市。 而为了在这些市场获得客户的高度认可,燧原科技计划采取两步走战略。


在赵立东看来,当下的燧原科技处于1.0阶段,在这个阶段公司的工作重心主要是放在建设顶级的工程化团队,完成产品研发和量产、实现产品热启动,加速产品落地、完成首个个人人工智能训练平台的商业化落地。


到了2.0阶段,燧原科技会专注于建立市场销售和服务支持体系,迅速拓展业务。 同时还会持续产品的研发和迭代,构建云端训练和推理平台完整解决方案。 而为了实现这个,燧原科技下一步将会推出了一个面向推理的AI芯片。 此外,加强国内外学术端的合作,引进高端人才,构建产业生态也是燧原科技在这阶段的目标。


赵立东多次强调,燧原科技的目标是打造一个本土普惠AI的算力平台,而目前也正是这样一个天时地利人和的好时机。


所谓天时,就是指当前的AI芯片还处于起步阶段,算法和架构方面还有很大的上升空间; 地利则指国内拥有巨大的人口红利,同时拥有海量的数据、大量的应用场景和市场机会,在国家层面也表达了对AI的关注; 至于人和则是指过去多年里,国内尤其是上海培养了足够多的人才,这有利于燧原打造更具竞争力的团队。


根据知名机构ABI Research 预测,到 2024 年,云端 AI 推理和训练所产生的 AI 芯片市场将会从当前的42亿美元上升到100亿美元。 初战告捷的燧原科技能在这个市场取得怎么的市场表现 ? 这就需要我们等到其“结果”的那一天。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2157期内容,欢迎关注。

推荐阅读


NOR Flash即将迎来爆发期

晶圆厂产能告急

封测业迎来拐点的重要抓手


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码 ,回复下方关键词,阅读更多

日本半导体|AI |台积电 |IC 亚马逊 RISC-V|高通|DRAM



回复 投稿 ,看《如何成为“半导体行业观察”的一员 》

回复 搜索 ,还能轻松找到其他你感兴趣的文章!

责任编辑:Sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论