对话云知声副总裁李霄寒：从单模态到多模态，以算法起家的AI芯片公司后劲十足

2019-01-24 14:00:21 来源: 半导体行业观察

点击

目前，物联网和人工智能（AI）都是发展大势。而 AI 芯片正处于从通用型向专用型发展和转化的过程当中，特别是在物联网边缘侧，通用型 AI 芯片的计算效率较低，继而带来了成本和功耗的失配。此外，AI 芯片要面对很多不同场景，很难有一款通用型产品能满足不同客户的需求。

目前来看，有越来越多的专用型 AI 芯片或模组的案例涌现出来，如智能家居、机器人、智能音箱等，都对专用型 AI 芯片提出了越来越多的需求。

因此，当今做 AI 芯片是符合市场发展需求的，在这方面，越来越多的公司更加务实，将其作为长期的发展战略，而不是抱着投机的心态去做 AI 芯片。云知声就是这样一家本土企业。2018 年 5 月，该公司正式发布首款物联网专用 AI 芯片之后，不足半年的时间，今年 1 月其再次对外宣布多模态 AI 芯片的研发计划。

物联网芯片设计难在哪儿？

随着应用的发展，物联网的场景化特点会愈加突出，此时，只提供单一芯片已经很难满足客户需求，必须要将芯片、应用，以及服务等有机地融合在一起，从而提供一整套的解决方案，才能满足实际的应用需求。

与此同时，在 IC 设计层面，与传统模式和流程相比，会更加复杂，对此，云知声联合创始人/ IoT 事业部副总裁李霄寒博士表示：“在最初的设计阶段，就要考虑应用算法，以及到底需要多大的算力，如何使软件能更好地运行等因素。这样，就需要 IC 设计团队与算法提供者有更紧密的合作。此时，软件和硬件的耦合会非常紧密，这会影响到开发流程。传统的 IC 设计主要是根据应用来设计相关参数，而未来物联网应用当中的芯片，特别是 AI 芯片，在设计阶段，就要根据实际的应用场景，设计出相应的功能，然后再去合理调配软件和硬件资源，这对设计者的综合水平和能力提出了更高的要求。”

在物联网的边缘侧，对 AI 芯片的性能、功耗和成本提出了更好的平衡要求。对此，李霄寒表示，性能仍然是要优先考量的，也是最重要的，在此前提下，再去追求功耗与成本的平衡，而在边缘侧，成本比功耗更加重要一些。

那么，对于边缘侧 AI 芯片设计者来说，如何能实现以上这些因素的平衡呢？李霄寒认为：首先，设计者的算法积累很重要，因为好的算法能让硬件发挥最大的效能；其次，IC 设计能力自然也很重要，特别是要能与业界实现良好的配合，以挖掘出更多的 IC 设计潜力；还有一点，也是经常被忽略的，那就是对场景的了解，即经历过整个流程，并有产品的量产，才能对很多实际的考量因素有清晰的认知，也就是 KnowHow，其会指导你的芯片设计流程。这一点非常重要。

芯片发展路线

据悉，云知声于 2015 年开始量产 IVM 模组，其采用了市场上的通用型芯片。由于当时市场上还没有通用型的 AI 芯片，所以多是以多核的 CPU 来实现 AI 加速器的功能。也就是在 2015 年，该公司决定自行做 AI 芯片，并开始了相关的规划和研发工作。

经过两年多的研发，2018 年5 月，云知声发布了其 UniOne 第一代产品——雨燕，这是一款单模态的语音专用的 AI 芯片。据悉，该公司不仅提供雨燕芯片，还提供相应的开源解决方案，包含芯片、引擎、应用，甚至还有云端服务，以及手机 APP 代码。据李霄寒介绍，这样做，有利于客户快速部署其产品，省去了找第三方开发各种应用的时间和成本。

据悉，目前已经有近 10 家客户导入了雨燕芯片，而且在今年上半年，很快就能在市场上看到相应的量产产品。

当今的 AI 芯片领域，存在着多种架构，每家都有不同的神经网络和机器学习产品，那么，云知声的 AI 芯片是采用怎样的架构和IP呢？据悉，第一代雨燕芯片采用的是该公司自行研发的 DeepNet 1.0，而其正在研发的新一代多模态 AI 芯片则采用了升级版本—— DeepNet 2.0。

向多模态演进

在物联网应用初期，很多 AI 芯片都是以单模态功能切入市场的，最为普遍的就是语音应用。但是，未来的应用会是多模态融合的，机器人就是一个典型的多模态应用实例，还有如车载芯片，因此，多模态是市场发展的必然趋势。云知声在原有单模态语音 AI 芯片的基础上，正在研发多模态芯片，主要针对语音和图像的处理需求，其相应的产品就是基于 DeepNet 2.0的。

据悉，云知声以 DeepNet 2.0 IP 为核心的 AI 架构，算力可以达到 4T。DeepNet 2.0 是多模态神经网络处理器 IP，其主要特点是可以支持多种推理网络兼容，如 LSTM、CNN、RNN 以及 TDNN 等；支持可重构计算；还支持 Winograd 处理，将乘法计算量降至原先的一半以下，大幅提升了计算效率。李霄寒表示，DeepNet 2.0 是相对通用的 IP 核，既可以满足音频应用需求，也可以实现对图像的处理。

另外，DeepNet 2.0 还支持多 NPU 的组网，组成模块化的网络，来支持算力的需求。

对于架构，李霄寒表示，虽然每家的架构都有各自的特点和实现方法，但其上面的软件会逐步达成统一，也就是说，支持机器学习的算法会逐渐形成统一的框架。未来，有可能形成在不同 AI 芯片硬件上面，可以运行所有神经网络的模型，这在不久的将来是完全有可能出现的。

一直以来，一提起云知声，业内人士第一反应就是：这是一家做语音方案的公司，对此，李霄寒表示：“大家给云知声贴的这个标签是片面的，并没有反应出我们公司全部能力。实际上，云知声在图像处理方面也有多年的技术积累。我们在这块很早就开始布局了，并在 2018 年开始发力，将相应的算法融入到了实际的产品当中。”

据悉，为了在智能语音、图像处理等多模态技术方面实现快速突破，云知声很早便在内部搭建了号称云知声版“TensorFlow + GKE (Google Kubernetes Engine) ”的 Atlas 机器学习计算平台，基于该平台可以实现各种算法的快速迭代，而且可以灵活调整算法和算力，极大地提升了研发效率。

在核心竞争力方面，云知声采用的都是自家多年积累的 IP。对此，李霄寒表示：“我们在研发、推广芯片产品的同时，逐步建立、锻炼出了一支强有力的队伍。我们在做语音专用的 DeepNet 1.0 的时候，市场上还没有相关的产品，只有自己研发。而且，在推向时候以后，反响不错，我们才实实在在地意识到这是一款很不错的产品，非常适合我们的算法和场景。因此，在此基础上，我们发展出了 DeepNet 2.0，与 DeepNet 1.0 相比，DeepNet 2.0 在功能上有了极大的增强，特别是算力方面，达到了 4T，另外，DeepNet 2.0 可以支持多种 NPU，这也就意味着可以支持多模态。”

就在今年 1 月初，云知声正式对外宣布，其正在研发数款多模态 AI 芯片，分别是面向物联网的雨燕-Lite，这是第一代雨燕的升级版本；面向智慧城市的海豚（Dolphin）；面向智慧出行的车规级芯片雪豹（Leopard）。

发展三阶段

对于云知声的发展历程，李霄寒做出了这样的总结：公司于 2012 年成立，至今已有 6 年多的时间，该公司将其发展历史分成了 3 个阶段。

李霄寒表示：“公司成立之初的两年，是技术优势构建阶段。在该阶段，云知声主要提供软件算法、引擎，服务等；从 2015 年开始，我们进入到了产品优势构建阶段，也就是大家所熟知的“云端芯”的产品体系。从那时起，云知声就不是只提供算法这么简单了，而是开始提供应用产品了，起初以软件为主，而且是整合了各种软件服务的产品。而智能医疗是我们的主战场，可以提供一整套的软硬件方案。在 2015 年之前，云知声是不具备硬件设计能力的，为了补齐短板，我们在深圳成立了一家分公司，专门进行硬件设计和研发；做出产品以后，我们进入了规模优势构建阶段，基于我们的芯片，实现大规模的量产，而且在相应的应用领域，排名行业第一。我们一直在观察市场和时代需求，以建设我们相应的能力，进而帮助客户解决问题。这也是我们于 2015 决定做芯片的主要原因，市场需求在那里，我们就去做。而且当时市场上还没有专用的 AI 芯片，为了满足客户对软硬件的整体需求，我们必须自己研发 AI 芯片。”

加快脚步只争朝夕

未来，不同的应用场景和领域会对 AI 芯片有不同的规范和标准要求，包括功耗、接口等方面，都会形成相应的标准。“未来，AI 算法很可能都会有相应的标准出台”，李霄寒表示：“硬件和软件之间的算法接口，很可能在不久的将来制定标准，这样，就可以实现在同一AI 芯片上运行不同厂家的算法，这种可能性是完全存在的。而对于我们公司来说，要争取走得足够快，争取成为标准的实际制定者。实际上，我们在家电领域已经实现过类似的目标，云知声是第一家在白色家电领域实现专用语音芯片落地的供应商，相应的测试标准实际上是由我们制定的。我们做出测试规范之后，客户就用该标准去要求所有的供应商。未来我们依然会按照这样的模式发展，争取成为更多行业标准的实际制定者。”

对于端和边缘侧 AI 芯片市场，李霄寒认为，边缘侧的 AI 芯片市场足够大，而且仍然处于发展初期，远没有到大家在一个红海里拼杀的程度。关键还是要做好供给侧的事情，市场的需求很大，也有很多厂商在跟进，但在现阶段，大家的产品做的还都不够好，虽然云知声走在了市场的前列，但依然有很大的提升空间。

“对于云知声来说，要只争朝夕呀！”李霄寒说。

人物简介

李霄寒博士于 1994 年考入中国科学技术大学少年班， 2003 年获得中科大信号与信息系统博士学位。他曾先后服务于联想、摩托罗拉中国、 Nuance 中国、盛大语音创新院等国内外知名公司，先后担任技术经理、主任工程师以及研发总监职位。

他在 2001 年获得“微软学者”称号，在 2005 年参与世界第一款嵌入式非特定人中文语音识别软件研发并将其广泛用于摩托罗拉系列产品中；随后在 2006 年参与世界第一款嵌入式说话人识别软件的研发。李霄寒博士在 2002 年代表微软，在 2010 年代表盛大参加“ NIST 国际说话人识别评测”大赛，共获得七个单项第一、两次总分第一名的优异成绩。

目前他作为云知声联合创始人及 IoT 事业部副总裁，分管产品研发。李霄寒博士负责带队研发的业界第一款物联网 AI 芯片在 2018 年上半年成功流片。

责任编辑：Sophie

物联网云知声人工智能

申请专栏作者

: 半导体行业观察

: 摩尔芯闻

对话云知声副总裁李霄寒：从单模态到多模态，以算法起家的AI芯片公司后劲十足

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

对话云知声副总裁李霄寒：从单模态到多模态，以算法起家的AI芯片公司后劲十足

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

热门文章本日七天本月