国产存算一体芯片里程碑:一款芯片,一款NPU
2024-08-14
17:43:24
来源: 李寿鹏
点击
过去几十年里,处理器产业几乎都是冯诺依曼架构和哈佛架构的天下。尤其是前者,因为其简单、易于实现,且适合于通用计算领域,冯诺依曼架构过去几十年里成为了处理器芯片的主流架构,如英特尔的X86芯片就是其中的典型代表。
然而,进入近些年,处理器速度明显更快,内存支持更高的密度。然而,CPU 和内存之间的传输速率只取得了适度的提升,这就使得CPU内存之间的传输受到难以逾越系统总线的限制。也就是说,传统的冯诺依曼处理器,碰壁了,这就是所谓的“冯诺依曼瓶颈”。
于是,行业呼唤新的解决方案,存内计算正成为其中一个热门选择。
存内计算升温,SRAM成为热点
所谓存算一体,也就是Processing-in-memory (PIM) (这也是苹芯将英文名定为PIMCHIP的原因之一)。作为一种不同于传统冯诺依曼架构的计算方式,存算一体将计算带入或靠近内存,而不是将大量数据传输到计算单元或从计算单元传输出去。
需要说明的是,PIM 并不是新概念。然而,近年来,由于现代应用程序对内存的需求不断增加,这就导致该领域的研究活动激增,从而促使研究人员考虑采用范式转变来解决这个问题。纵观全球,我们也看到国外涌现出了包括UPMEM、Mythic、EnCharge AI、Axelera AI和Syntiant 在内的初创企业。聚焦到国内,苹芯科技无疑是其中一个典型代表。
在日前发布公司的PIMCHIP-N300存算一体NPU和PIMCHIP-S300多模态智能感知芯片的时候,苹芯科技CEO杨越也回忆道,几年前,包括他在内的苹芯科技团队看到了芯片成本迅猛飞升的这个趋势。与此同时,轻量化、便携化、智能本地化已逐渐成为AI产品形态的主流。“在AI芯片工作中,超过90%的功耗都是发生在数据在总线的传输过程中。”杨越强调。
苹芯科技CEO杨越
他进一步指出,当AI起来之后,其运算量要比之前的一些通用运算量要更密集,这也让原来的架构其实在于效率上来讲就支撑得不是很好,传统更新制程以提高性能的方法遭遇到了瓶颈。这时候就需要新的解决办法,这也正是驱动他成立苹芯科技的原因之一。
据介绍,苹芯科技专注于利用先进的存算一体技术对人工智能计算进行加速。通过将数据计算和数据存储相融合,苹芯科技的产品能突破传统芯片架构固有的局限性,从而低成本地实现高性能AI计算引擎。具体到技术方面,苹芯科技的存内计算选用SRAM作为存储,这也是公司团队经过深思熟虑做出的一个选择。
回看PIM的发展,在早期是采用在 DRAM 主存芯片上制造计算逻辑处理器的办法,但由于当时制造技术的限制,这种方案并没获得广泛接受。不过,随着3D DRAM的到来,这种方案取得了新的进展。随后,行业又转向了基于SRAM以及后续的类似RRAM等新兴存储的存内计算方案。
然而,因为 SRAM 通常采用与计算块相同的工艺技术制造,这让其更容易让人接受。此外,由于其成熟度,基于SRAM的存内计算更接近商业可用性。因此,苹芯在选选择了这条路线后,能够更好地推进公司的技术和产品发展。
这也让公司可以在成熟工艺节点下突破芯片性能,引领非冯诺依曼计算体系革新,并带来了两款新产品。
一款芯片,一款IP
如上所说,苹芯科技这次发布了一颗芯片和一款IP:PIMCHIP-S300多模态智能感知芯片和PIMCHIP-N300存算一体NPU。
“现在市场对于芯片小型化、轻量化、低功耗和智能本地化的需求非常多,这正是存算一体技术的优势所在”。杨越表示。他进一步指出,基于对市场的观察、终端需求的理解以及自身实力的评估,苹芯科技最终决定推出一款多模态芯片和一款NPU IP。
首先看芯片方面,据介绍,PIMCHIP-S300系列芯片则是基于存算一体技术打造的AI芯片,具备高能效、小面积、低功耗、低成本等特点。搭载轻量级的MCU处理器,实现实时控制与调度,支持音、视频及多种传感器接入,实现多模态融合感知。
从制程工艺看来,该芯片采用28nm制程、BGA封装、自研异构架构,在12mm * 12mm的封装尺寸中,其die做得很小,能满足小型化的应用需求。因为拥有丰富的外设接口,该芯片不但可以接收数据,也能本地处理数据,简单决策,并最终执行控制。由此可见这颗芯片的功能强大。
苹芯科技方面表示,这个世界前沿SRAM存内计算芯片搭载先进的数字PIM单元,其计算核心能效比高达27TOPS/W。拥有自研异构架构,超低功耗唤醒、VAD、语音识别、运动监测、视觉识别等优势。因为实现了数据处理的“零搬运”,PiMCHIP-S300在大幅提升运算效率的同时,显著降低了能耗,为智能可穿戴设备、智能安防、具身智能、AI大模型、健康数据分析等领域带来了一场计算效率的革命。针对特定计算,该芯片更是可以节约90%的耗能。
为了帮助客户部署产品,将其快速推向市场,苹芯科技甚至还推出了自研的Pstreamer异构计算开源框架,旨在通过管道将不同通用算法和算力模块连接起来,实现声光电不同模态信息的采集、融合、感知等功能,并衔接决策与控制功能。
除了上述的的芯片和软件以外,苹芯科技甚至还推出了一款IP,这有点颠覆过去过去对芯片公司的看法。但苹芯表示,之所以推出这款产品,是公司在与客户合作与交流中做出的一个决定。归根到底,都是为了更好地为客户提供服务。
据了解,这款名为PIMCHIP-N300的IP是苹芯科技自研的新一代存算一体神经网络处理单元(NPU)IP。这款产品专为机器学习和人工智能领域设计,能够以更高的效率、更低的能耗处理人工神经网络等机器学习算法和深度学习模型。
据苹芯科技提供的数据显示,采用软硬融合架构的PiMCHIP-N300其单核可提供0.5TOPS的算力,系统功耗为25-100mW。在典型场景下,该NPU的静态功耗更是低至100μW。在应用中,N300支持混合精度计算,涵盖整型的4bit、8bit以及浮点的16bit计算,支持12大类超过100种算子,核心计算单元能效比高达27TOPS/W,能完美平衡功耗、算力密度和计算精度。
苹芯科技方面表示,N300将开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,根据客户定义的场景或数据,提供一键部署的端到端的解决方案。而依靠高度灵活性和易集成性,N300将大大缩短产品开发周期,加速客户品牌的智能化升级,助力合作伙伴快速响应市场需求,紧跟智能化产品的迭代节奏。而得益于其可扩展性设计以及存算一体芯片的设计特点,开发者还能更具需求打造性能更高的NPU。
写在最后
清华大学电子工程系教授、无问芯穹科技有限公司发起人汪玉现在发布会现场的致辞中说,苹芯两款新品具备三个特点:一是在28nm成熟工艺下取得跨代性能提升,实现极致能效比;二是通用性强,能支持不同应用;三是一个平台架构的概念,在大模型、可穿戴、机器人等应用领域均能发挥作用。
苹芯科技也认为,公司此次推出的S300和N300是两款突破型的AI芯片产品,是存算一体技术端侧产业化的全新里程碑,是存算一体技术在28及22纳米节点上的首次产品化实现。
展望未来,如苹芯科技CEO杨越所说,芯片、人工智能等技术的迅猛发展,正在重塑我们的世界,苹芯科技定位自身为智能计算架构的革新者,致力于通过创新的存算一体解决方案,为AI的广泛应用铺设技术高速路,推动从智能终端设备到智慧城市、从智能医疗到具身智能的全方位变革。
“未来,希望携手行业优秀企业在芯片设计、系统集成、应用开发等领域,共同探索存算一体技术的落地应用与价值显现。”杨越重申。
然而,进入近些年,处理器速度明显更快,内存支持更高的密度。然而,CPU 和内存之间的传输速率只取得了适度的提升,这就使得CPU内存之间的传输受到难以逾越系统总线的限制。也就是说,传统的冯诺依曼处理器,碰壁了,这就是所谓的“冯诺依曼瓶颈”。
于是,行业呼唤新的解决方案,存内计算正成为其中一个热门选择。
存内计算升温,SRAM成为热点
所谓存算一体,也就是Processing-in-memory (PIM) (这也是苹芯将英文名定为PIMCHIP的原因之一)。作为一种不同于传统冯诺依曼架构的计算方式,存算一体将计算带入或靠近内存,而不是将大量数据传输到计算单元或从计算单元传输出去。
需要说明的是,PIM 并不是新概念。然而,近年来,由于现代应用程序对内存的需求不断增加,这就导致该领域的研究活动激增,从而促使研究人员考虑采用范式转变来解决这个问题。纵观全球,我们也看到国外涌现出了包括UPMEM、Mythic、EnCharge AI、Axelera AI和Syntiant 在内的初创企业。聚焦到国内,苹芯科技无疑是其中一个典型代表。
在日前发布公司的PIMCHIP-N300存算一体NPU和PIMCHIP-S300多模态智能感知芯片的时候,苹芯科技CEO杨越也回忆道,几年前,包括他在内的苹芯科技团队看到了芯片成本迅猛飞升的这个趋势。与此同时,轻量化、便携化、智能本地化已逐渐成为AI产品形态的主流。“在AI芯片工作中,超过90%的功耗都是发生在数据在总线的传输过程中。”杨越强调。
苹芯科技CEO杨越
他进一步指出,当AI起来之后,其运算量要比之前的一些通用运算量要更密集,这也让原来的架构其实在于效率上来讲就支撑得不是很好,传统更新制程以提高性能的方法遭遇到了瓶颈。这时候就需要新的解决办法,这也正是驱动他成立苹芯科技的原因之一。
据介绍,苹芯科技专注于利用先进的存算一体技术对人工智能计算进行加速。通过将数据计算和数据存储相融合,苹芯科技的产品能突破传统芯片架构固有的局限性,从而低成本地实现高性能AI计算引擎。具体到技术方面,苹芯科技的存内计算选用SRAM作为存储,这也是公司团队经过深思熟虑做出的一个选择。
回看PIM的发展,在早期是采用在 DRAM 主存芯片上制造计算逻辑处理器的办法,但由于当时制造技术的限制,这种方案并没获得广泛接受。不过,随着3D DRAM的到来,这种方案取得了新的进展。随后,行业又转向了基于SRAM以及后续的类似RRAM等新兴存储的存内计算方案。
然而,因为 SRAM 通常采用与计算块相同的工艺技术制造,这让其更容易让人接受。此外,由于其成熟度,基于SRAM的存内计算更接近商业可用性。因此,苹芯在选选择了这条路线后,能够更好地推进公司的技术和产品发展。
这也让公司可以在成熟工艺节点下突破芯片性能,引领非冯诺依曼计算体系革新,并带来了两款新产品。
一款芯片,一款IP
如上所说,苹芯科技这次发布了一颗芯片和一款IP:PIMCHIP-S300多模态智能感知芯片和PIMCHIP-N300存算一体NPU。
“现在市场对于芯片小型化、轻量化、低功耗和智能本地化的需求非常多,这正是存算一体技术的优势所在”。杨越表示。他进一步指出,基于对市场的观察、终端需求的理解以及自身实力的评估,苹芯科技最终决定推出一款多模态芯片和一款NPU IP。
首先看芯片方面,据介绍,PIMCHIP-S300系列芯片则是基于存算一体技术打造的AI芯片,具备高能效、小面积、低功耗、低成本等特点。搭载轻量级的MCU处理器,实现实时控制与调度,支持音、视频及多种传感器接入,实现多模态融合感知。
从制程工艺看来,该芯片采用28nm制程、BGA封装、自研异构架构,在12mm * 12mm的封装尺寸中,其die做得很小,能满足小型化的应用需求。因为拥有丰富的外设接口,该芯片不但可以接收数据,也能本地处理数据,简单决策,并最终执行控制。由此可见这颗芯片的功能强大。
苹芯科技方面表示,这个世界前沿SRAM存内计算芯片搭载先进的数字PIM单元,其计算核心能效比高达27TOPS/W。拥有自研异构架构,超低功耗唤醒、VAD、语音识别、运动监测、视觉识别等优势。因为实现了数据处理的“零搬运”,PiMCHIP-S300在大幅提升运算效率的同时,显著降低了能耗,为智能可穿戴设备、智能安防、具身智能、AI大模型、健康数据分析等领域带来了一场计算效率的革命。针对特定计算,该芯片更是可以节约90%的耗能。
为了帮助客户部署产品,将其快速推向市场,苹芯科技甚至还推出了自研的Pstreamer异构计算开源框架,旨在通过管道将不同通用算法和算力模块连接起来,实现声光电不同模态信息的采集、融合、感知等功能,并衔接决策与控制功能。
除了上述的的芯片和软件以外,苹芯科技甚至还推出了一款IP,这有点颠覆过去过去对芯片公司的看法。但苹芯表示,之所以推出这款产品,是公司在与客户合作与交流中做出的一个决定。归根到底,都是为了更好地为客户提供服务。
据了解,这款名为PIMCHIP-N300的IP是苹芯科技自研的新一代存算一体神经网络处理单元(NPU)IP。这款产品专为机器学习和人工智能领域设计,能够以更高的效率、更低的能耗处理人工神经网络等机器学习算法和深度学习模型。
据苹芯科技提供的数据显示,采用软硬融合架构的PiMCHIP-N300其单核可提供0.5TOPS的算力,系统功耗为25-100mW。在典型场景下,该NPU的静态功耗更是低至100μW。在应用中,N300支持混合精度计算,涵盖整型的4bit、8bit以及浮点的16bit计算,支持12大类超过100种算子,核心计算单元能效比高达27TOPS/W,能完美平衡功耗、算力密度和计算精度。
苹芯科技方面表示,N300将开放NPU中间表示层规范、模型解析器、模型优化器、驱动等,根据客户定义的场景或数据,提供一键部署的端到端的解决方案。而依靠高度灵活性和易集成性,N300将大大缩短产品开发周期,加速客户品牌的智能化升级,助力合作伙伴快速响应市场需求,紧跟智能化产品的迭代节奏。而得益于其可扩展性设计以及存算一体芯片的设计特点,开发者还能更具需求打造性能更高的NPU。
写在最后
清华大学电子工程系教授、无问芯穹科技有限公司发起人汪玉现在发布会现场的致辞中说,苹芯两款新品具备三个特点:一是在28nm成熟工艺下取得跨代性能提升,实现极致能效比;二是通用性强,能支持不同应用;三是一个平台架构的概念,在大模型、可穿戴、机器人等应用领域均能发挥作用。
苹芯科技也认为,公司此次推出的S300和N300是两款突破型的AI芯片产品,是存算一体技术端侧产业化的全新里程碑,是存算一体技术在28及22纳米节点上的首次产品化实现。
展望未来,如苹芯科技CEO杨越所说,芯片、人工智能等技术的迅猛发展,正在重塑我们的世界,苹芯科技定位自身为智能计算架构的革新者,致力于通过创新的存算一体解决方案,为AI的广泛应用铺设技术高速路,推动从智能终端设备到智慧城市、从智能医疗到具身智能的全方位变革。
“未来,希望携手行业优秀企业在芯片设计、系统集成、应用开发等领域,共同探索存算一体技术的落地应用与价值显现。”杨越重申。
责任编辑:Ace