从端到云,芯原NPU IP持续领跑

2024-06-15 16:46:37 来源: 李晨光
6月13日,在2024上海国际嵌入式展期间,芯原召开以“从云到端,AI触手可及”为主题的AI专题技术研讨会。

在大会现场,芯原NPU IP研发副总裁查凯南以《从端侧到云端,芯原NPU构建完整生态》为题,进行了主旨分享,介绍了芯原NPU发展现状、未来趋势以及芯原NPU的技术优势和生态布局。

芯原NPU IP研发副总裁查凯南

在前面的分享中,芯原执行副总裁、IP事业部总经理戴伟进提到,随着AI、大模型持续推进,边缘计算领域迎来变革机遇与挑战。随着大模型的爆发,大模型正率先在手机、AI PC、汽车等各种终端加速落地。

而对于NPU在端侧和云端的要求,查凯南表示,端侧更关注低功耗,一定要有比较好的PPA(功耗、性能和面积)。AI性能很重要,但是功耗、面积对于端侧的IP更重要。因为端侧主要是做推理,也要有一些浮点运算的能力,更关注的是低比特的量化及压缩能力。

相比之下,云端更重要的是大算力和高性能,要能够去做训练和推理,不只是单卡的训练推理,还要做分布式的推理训练,需要多卡多机的能力。所以,云端需要的更多是通用的GPGPU的编程模型,需要比较高的浮点和定点算力的配比,高精度是比较重要的,然后还要能够去接入到大的生态系统中去。

可见,端侧与云端的大模型应用各有侧重。

芯原在此也都有布局。在端侧方面,芯原拥有VIP9X00和GC9XX00AI AI-GPU IP,云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务,最小化数据传输,成为推动嵌入式智能设备发展的关键要素。

据介绍,这些NPU IP基于GPU架构体系进行优化,利用可编程、可扩展及并行处理能力,为各类主流AI算法提供硬件加速的微处理器技术。

最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力,适用于Transformer和卷积神经网络(CNN)。此外,VIP9000系列还融合了4位量化和压缩技术,以解决带宽限制问题,方便在嵌入式设备上部署生成式人工智能(AIGC)和大型语言模型(LLM)算法,如Stable Diffusion和Llama 2。

在NPU架构创新方面,芯原自创立以来,便以“视觉-自然语言-图像-语音”为基石,如今已蜕变为专注于“自然语言”处理的行业翘楚。

据了解,芯原的NPU可以带浮点32去做大量通用运算,整个软件生态往上支持OpenCL等。

芯原针对Transformer模型也进行了深度优化,支持4比特、8比特等低比特量化,极大提升了运算效率与带宽利用率,大大减小带宽的消耗。据悉,芯原针对Transformer相关的网络性能提升达10倍。经过优化,芯原的NPU在Stable diffusion 1.5中,能够达到20 steps under 2 seconds,在LLaMA2 7B中能够达到20 Tokens/s,性能十分出色。

与此同时,芯原还构建了完善的软件生态,支持PyTorch、VLLM等多种主流框架,自研推理Toolkit等工具链可导入各类框架并量化生成易部署的Binary。此外,芯原还支持ONNX Runtime、多种数据格式,并对接Triton等高级编译语言,致力于开放接入,推动AI技术的广泛应用。

整个推理工具链都是芯原自研的,可以通过工具链直接导入所有类型框架;内部自嵌一些量化的功能,可以去直接生成一个非常易于部署的Generate Binary。

接下来,芯原还将继续深耕NPU领域,计划将于2024年10月全面接入Triton等高级编译语言,以更开放的姿态拥抱行业生态,推动AI技术的持续进步与广泛应用。

截止今年3月初,集成了芯原神经网络处理器(NPU)IP的人工智能(AI)类芯片已在全球范围内出货超过1亿颗,主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等10个市场领域。在过去七年里,芯原在嵌入式AI/NPU领域全球领先,其NPU IP已被72家客户用于上述市场领域的128款AI芯片中。

回顾芯原发展历程能看到,随着其NPU客户不断增多,各种各样的新需求也涌现了出来。为了应对这些需求,并顺应人工智能技术的发展,芯原的NPU IP经过研发,逐渐演化为三个各具特色的系列:

·  VIP9000Pico主打为穿戴设备和物联网设备提供较小芯片面积、低功耗、可编程、可扩展的解决方案。
·  VIP9000可以提供从 0.5 TOPS 到 20 TOPS的算力,主打为可穿戴和物联网设备、网络摄像机、监控摄像头、智能家居、手机、笔记本电脑、汽车和边缘服务器等广泛的应用提供人工智能能力。
·  VIP9400提供多达80TOPS的单核算力,具备可扩展架构实现多核提供更高算力,主打为数据中心和汽车应用提供强大的人工智能算力。
另外,芯原除了NPU,还有GPU、DSP、VPU、ISP、显示处理等IP,能很好地满足人工智能芯片对异构架构的需求。

由于芯原的IP都是自主研发,可以从原生代码入手,实现NPU IP和其他IP在流水线级的深度融合,从而轻松实现AI GPU、AI ISP、AI Video等不同功能的集成,这种 IP子系统可以对传统技术进行大幅的性能升级。

在打造IP子系统时,相较于其他人搭积木式的组合方式,芯原则可以像乐高一样紧扣在一起,还可以把底层软件开放给客户,支持客户做一些定制化开发。这样就形成了其整个平台级产品的创新体系。

综合来看,芯原NPU的成功并非偶然,而是技术创新、市场把握、生态建设和团队实力等多方面因素共同作用的结果。每一个成功的背后,都有无数次失败的尝试和不懈的努力。芯原正是凭借其对技术的执着追求,对市场需求的精准把握,以及务实有效的实干精神,逐步在全球NPU芯片市场上占据了一席之地。
责任编辑:sophie

相关文章

半导体行业观察
摩尔芯闻

热门评论