从端到云，芯原NPU IP持续领跑

2024-06-15 16:46:37 来源: 李晨光

点击

6月13日，在2024上海国际嵌入式展期间，芯原召开以“从云到端，AI触手可及”为主题的AI专题技术研讨会。

在大会现场，芯原NPU IP研发副总裁查凯南以《从端侧到云端，芯原NPU构建完整生态》为题，进行了主旨分享，介绍了芯原NPU发展现状、未来趋势以及芯原NPU的技术优势和生态布局。

芯原NPU IP研发副总裁查凯南

在前面的分享中，芯原执行副总裁、IP事业部总经理戴伟进提到，随着AI、大模型持续推进，边缘计算领域迎来变革机遇与挑战。随着大模型的爆发，大模型正率先在手机、AI PC、汽车等各种终端加速落地。

而对于NPU在端侧和云端的要求，查凯南表示，端侧更关注低功耗，一定要有比较好的PPA（功耗、性能和面积）。AI性能很重要，但是功耗、面积对于端侧的IP更重要。因为端侧主要是做推理，也要有一些浮点运算的能力，更关注的是低比特的量化及压缩能力。

相比之下，云端更重要的是大算力和高性能，要能够去做训练和推理，不只是单卡的训练推理，还要做分布式的推理训练，需要多卡多机的能力。所以，云端需要的更多是通用的GPGPU的编程模型，需要比较高的浮点和定点算力的配比，高精度是比较重要的，然后还要能够去接入到大的生态系统中去。

可见，端侧与云端的大模型应用各有侧重。

芯原在此也都有布局。在端侧方面，芯原拥有VIP9X00和GC9XX00AI AI-GPU IP，云侧则拥有CCTC-MP Tensor Core GPU IP。其中端侧的NPU IP能够高效地处理各类神经网络和计算任务，最小化数据传输，成为推动嵌入式智能设备发展的关键要素。

据介绍，这些NPU IP基于GPU架构体系进行优化，利用可编程、可扩展及并行处理能力，为各类主流AI算法提供硬件加速的微处理器技术。

最新一代的芯原VIP9000系列NPU IP具备可扩展的高性能处理能力，适用于Transformer和卷积神经网络（CNN）。此外，VIP9000系列还融合了4位量化和压缩技术，以解决带宽限制问题，方便在嵌入式设备上部署生成式人工智能（AIGC）和大型语言模型（LLM）算法，如Stable Diffusion和Llama 2。

在NPU架构创新方面，芯原自创立以来，便以“视觉-自然语言-图像-语音”为基石，如今已蜕变为专注于“自然语言”处理的行业翘楚。

据了解，芯原的NPU可以带浮点32去做大量通用运算，整个软件生态往上支持OpenCL等。

芯原针对Transformer模型也进行了深度优化，支持4比特、8比特等低比特量化，极大提升了运算效率与带宽利用率，大大减小带宽的消耗。据悉，芯原针对Transformer相关的网络性能提升达10倍。经过优化，芯原的NPU在Stable diffusion 1.5中，能够达到20 steps under 2 seconds，在LLaMA2 7B中能够达到20 Tokens/s，性能十分出色。

与此同时，芯原还构建了完善的软件生态，支持PyTorch、VLLM等多种主流框架，自研推理Toolkit等工具链可导入各类框架并量化生成易部署的Binary。此外，芯原还支持ONNX Runtime、多种数据格式，并对接Triton等高级编译语言，致力于开放接入，推动AI技术的广泛应用。

整个推理工具链都是芯原自研的，可以通过工具链直接导入所有类型框架；内部自嵌一些量化的功能，可以去直接生成一个非常易于部署的Generate Binary。

接下来，芯原还将继续深耕NPU领域，计划将于2024年10月全面接入Triton等高级编译语言，以更开放的姿态拥抱行业生态，推动AI技术的持续进步与广泛应用。

截止今年3月初，集成了芯原神经网络处理器（NPU）IP的人工智能（AI）类芯片已在全球范围内出货超过1亿颗，主要应用于物联网、可穿戴设备、智慧电视、智慧家居、安防监控、服务器、汽车电子、智能手机、平板电脑、智慧医疗等10个市场领域。在过去七年里，芯原在嵌入式AI/NPU领域全球领先，其NPU IP已被72家客户用于上述市场领域的128款AI芯片中。

回顾芯原发展历程能看到，随着其NPU客户不断增多，各种各样的新需求也涌现了出来。为了应对这些需求，并顺应人工智能技术的发展，芯原的NPU IP经过研发，逐渐演化为三个各具特色的系列：

· VIP9000Pico主打为穿戴设备和物联网设备提供较小芯片面积、低功耗、可编程、可扩展的解决方案。
· VIP9000可以提供从 0.5 TOPS 到 20 TOPS的算力，主打为可穿戴和物联网设备、网络摄像机、监控摄像头、智能家居、手机、笔记本电脑、汽车和边缘服务器等广泛的应用提供人工智能能力。
· VIP9400提供多达80TOPS的单核算力，具备可扩展架构实现多核提供更高算力，主打为数据中心和汽车应用提供强大的人工智能算力。
另外，芯原除了NPU，还有GPU、DSP、VPU、ISP、显示处理等IP，能很好地满足人工智能芯片对异构架构的需求。

由于芯原的IP都是自主研发，可以从原生代码入手，实现NPU IP和其他IP在流水线级的深度融合，从而轻松实现AI GPU、AI ISP、AI Video等不同功能的集成，这种 IP子系统可以对传统技术进行大幅的性能升级。

在打造IP子系统时，相较于其他人搭积木式的组合方式，芯原则可以像乐高一样紧扣在一起，还可以把底层软件开放给客户，支持客户做一些定制化开发。这样就形成了其整个平台级产品的创新体系。

综合来看，芯原NPU的成功并非偶然，而是技术创新、市场把握、生态建设和团队实力等多方面因素共同作用的结果。每一个成功的背后，都有无数次失败的尝试和不懈的努力。芯原正是凭借其对技术的执着追求，对市场需求的精准把握，以及务实有效的实干精神，逐步在全球NPU芯片市场上占据了一席之地。

责任编辑：sophie

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

从端到云，芯原NPU IP持续领跑

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

从端到云，芯原NPU IP持续领跑

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月