[原创] 为什么你的AI芯片设计总是慢人一步?
2020-09-23
14:00:05
来源: 半导体行业观察
从上世纪八十年代开始,多层神经网络和反向传播算法的出现给人工智能行业点燃了新的火花,到2016年Alpha Go击败韩国围棋九段职业选手,标志着人工智能的又一波高潮来临。现阶段的人工智能领域已经全面开花。
人工智能的兴起,为半导体行业带来了新的机遇,使得半导体市场发生了翻天覆地的变化。但想要将人工智能移植到智能手机、车联网、IoT等终端,就对硬件的计算能力和能耗提出了更高的要求。就拿移动端硬件来说,完成这些运算必须同时满足高速度和低功耗的要求。
针对这些需求,人工智能核心计算芯片也经历了四次大的变化。
2007年以前,人工智能研究和应用经历了数次起伏,一直没有发展成为成熟的产业;同时受限于当时算法、数据等因素,这一阶段人工智能对于芯片并没有特别强烈的需求,通用的CPU芯片即可提供足够的计算能力。
随着高清视频、游戏等行业的发展,GPU产品取得快速的突破;同时人们发现GPU的并行计算特性恰好适应人工智能算法大数据并行计算的要求,如GPU比之前传统的CPU在深度学习算法的运算上可以提高9到72倍的效率,因此开始尝试使用GPU进行人工智能的计算。
进入2010年后,云计算广泛推广,人工智能的研究人员可以通过云计算借助大量CPU和GPU进行混合运算,事实上今天人工智能主要的计算平台还是云计算。但人工智能业界对于计算能力的要求快速提升,因此进入2015年后,业界开始研发针对人工智能的专用芯片,通过更好的硬件和芯片架构,在计算效率、能耗比等性能上得到进一步提升。
由于已经发现传统架构对于AI SoC而言效率低下,因此系统规范需要进行越来越多的架构探索来优化设计,以提高神经网络处理的吞吐量。FinFET时代的到来促使产品架构师和片上系统 (SoC) 工程师更仔细地研究每个时钟周期中执行的计算的效率。
越来越多的企业开始提供精良的神经网络架构,但这些复杂的功能运行时也使得硅片上的温度随之升高,功耗预算愈发紧张。此外,由于RTL代码的性质不断变化,快速发展的架构使得交付进度也更为紧张。面对功耗和上市时间的双重挑战,开发出适合相同芯片面积并在任务模式下按照预期吞吐量水平发挥性能的全芯片布局绝非易事。
设计人员需要使用构成计算电路的构建模块,在元件层面解决实现高性能人工智能 (AI) SoC的功耗、性能和面积 (PPA) 目标的问题。布尔逻辑和存储器存储元件构成的这些元件块被称为基础IP。
目前最流行的深度学习技术是深度神经网络(DNN),它是许多现代AI应用的基础。自从DNN在语音识别和图像识别任务中展现出突破性的成果,使用DNN的应用数量呈爆炸式增长。这些DNN方法被大量应用在无人驾驶汽车,癌症检测,游戏AI等方面。在许多领域中,DNN目前的准确性已经超过人类。
但在实现DNN时,如果选了错误的方式,就可能给项目进度带来大麻烦。因此,利用能够在设计周期内为过程校正提供灵活性的基础IP开展设计是成功推出产品的必要之举。
新思科技的基础IP产品组合中包括HPC设计套件。该套件是逻辑库单元和存储器的集合,已在先进节点上与EDA工具经过共同优化,旨在突破任何设计的PPA极限,并针对支持AI的设计进行优化。
须知,使用EDA供应商提供的基础IP解决方案最重要的优势在于互操作性。这意味着设计人员可以使用IP附带的脚本在最尖端的工艺节点上进行工作渠道清理流程,并且不会浪费增效时间。
新思科技除了供应种类丰富且经过硅验证的产品组合用于实现理想PPA目标之外,还支持满足个性化设计需求的定制服务,使其业务比任何其他产品更灵活。
随着AI SoC的复杂性不断增加,除了实现基础构建模块的简便同时,优化、测试和基准界定SoC性能的设计过程也需要工具、服务和/或专业知识来优化AI系统。在设计过程中通过定制和优化来培育设计,最终可以决定SoC在市场中能否取得成功。
仅依靠传统的设计流程,设计人员无法得到理想的高性能、市场领先的AI解决方案。他们必须考虑更广阔范围的半导体解决方案。
在专业处理能力方面,融合神经网络能力的SoC必须同时适应异构和大规模并行矩阵乘法运算。异构组件需要标量、矢量DSP和神经网络算法能力。
在存储性能方面,AI模型使用大量存储,这增加了硅片的成本。训练神经网络可能需要几GB到10 GB的数据,这需要使用DDR最新技术,以满足容量要求。
在实时数据连接方面,一旦AI模型经过训练并可能被压缩,就可以通过许多不同的接口IP解决方案执行实时数据。
同时,尽管复制人类大脑还有很长的路要走,但人类大脑已被用作构建人工智能系统的有效模型,并继续由全球领先的研究机构建模。
SoC 的开发过程在不断变化,但本质上包括以下标准环节:系统规范和架构设计;逻辑和功能电路设计;物理设计、验证和分析;制造、封装和测试;以及发布硅验证。新增 AI 功能可能会增加各个环节的复杂性。集成的 IP 明确规定了一些理论上的能力上限,但是对设计进行优化可以使实现结果更接近理论上的最大值。
传统 SoC 架构的存储访问和处理能力无法满足需求。仅靠添加有效的矩阵乘法加速器或高带宽存储器接口的确有所帮助,但不足以成就AI 的市场领导者,这就更加坚定了在系统设计期间专门针对 AI 进行特定优化的理念。
由于已经发现传统架构对于 AI SoC 而言效率低下,因此系统规范需要进行越来越多的架构探索来优化设计。而因为传统的架构被认为效率较低,所以更加需要提供架构服务。
此外,一代接一代的 AI SoC 正在接受改造,利用经验丰富的设计团队进行优化和定制。深度学习算法包括许多存储的权重,理想的情况是将其存储在片上 SRAM 中,以便节省功耗和处理工作量,而通过定制来优化 SRAM 编译器的功率和密度是一个明显的趋势。
定制处理器是新型 AI SoC 解决方案最受欢迎的 IP 开发成果之一。设计自定义处理器的工具弥足珍贵,它既能确保门级优化得到充分利用和重用,也能保证不落后于支持自定义处理器所需的生态系统。
开发AI SoC 需要市场上一些最具创新性的IP。其中包括快速采用以下新技术:
HBM2e
、
PCIe5
、
CCIX
,以及最新的
MIPI
。为了采纳这些标准技术,设计人员需要支持早期的软件开发和性能验证的先进仿真和原型设计解决方案。这些工具经常被用来实现 AI,原因同样在于设计的不成熟和复杂性。
预先构建的AI SoC 验证环境只能供具有AI SoC 开发经验的人员使用。因此,设计第二代和后代芯片组的设计服务和公司在上市时间方面具有快于先行者的固有优势。设计人员可以依靠设计服务作为利用 AI SoC 专业知识的有效方式,从而缩短产品上市时间,并将内部设计团队解放出来,让其专心设计差异化功能。
接口IP的硬化服务是另一种优化工具,可实现更低功耗和更小面积的设计。硬化IP 为 SoC 腾出空间,为达到更高的 AI 性能提供了宝贵的片上 SRAM 和处理器组件。
在AI功能进入新市场时选择用于集成的 IP为AI SoC提供了关键组件。新思科技提供了许多专业解决方案,包括存储接口IP、多端口的片上SRAM编译器以及用于实时数据的完整接口选项组合,这三种IP解决方案是下一代AI设计的关键组件。
随着体系结构迅速发展,并细化到更具体的应用场景中,这种竞争环境为差异化和系统优化创造了机会。需要通过架构建模来选择系统和IP配置替代方案优化AI片上系统(SoC)设计,从而迅速形成具有竞争力的解决方案。新思科技提供的IP产品组合,节省了芯片设计商的时间,让其专心设计差异化功能。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第2441期内容,欢迎关注。
『
半导体第一垂直媒体
』
实时 专业 原创 深度
识别二维码
,回复下方关键词,阅读更多
晶圆|IP
|
SiC|并购|射频|台积电|Nvidia|苹果
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复
搜索
,还能轻松找到其他你感兴趣的文章!
责任编辑:Sophie