[原创] 自研芯片护航,思必驰大举进军物联网
人工智能与IoT相遇之后,诞生了AIoT,再遇上了5G之后,一个全新的AIoT时代正在被开启。 因为拥有广泛链接和超低延迟等优势,5G驱动下的AIoT被产业界誉为继智能手机之后的一个“救星”。 按照很多专家的观点,它将给人类生活带来前所未有的新体验,同时也会催生一个万亿市场。 为了给消费者带来一个接近完美的AIoT体验,很多技术是必须升级的。 尤其是作为设备与人交互重要入口的语音识别技术,更是产业界关注的重中之重。
过去几年,随着苹果siri的流行,加上智能音箱的突然爆发,让大部分人都领会到了“与机器说话”的乐趣。 但坦白讲,这些相对智障的交互,也让开发者和消费者都有了迫切升级的冀望。 这症是成立至今12年的思必驰一直在致力于解决的问题。
智能语音交互技术在AIoT时代面临的挑战
在日前由雷锋网举办的2019 第四届全球人工智能与机器人峰会上,思必驰CTO周伟达先生告诉记者,物联网的智能语音交互面临以下几点挑战:
思必驰CTO周伟达先生
第一就是低功耗挑战;
我们知道,很多联网设备都是电池供电的,如果我们的智能语音交互模块再想智能音箱音箱上的产品一样,功耗做到百毫瓦级,那是绝对不允许的。 以智能耳机为例,他们的电池仅仅为70到80毫瓦,那就意味着我们在耳机设备上要做语音交互时,功耗要做到1毫瓦。 这个1毫瓦是什么概念呢? 考虑到普通模拟麦克风的工作电流是70微安,再加上ADC、模拟功放,这样做下来的通用麦克风就达到1毫瓦级别了。
再看被广泛普及和应用的数字麦克风。 数字麦克风的功耗是900微瓦,那就意着留给我们语音的采集、唤醒、声纹、本地识别的空间非常之少。 这个过程带来的挑战可想而知。
第二是远场和高噪声的挑战;
我们现在很多时候使用麦克风的方式是近场的麦克风语音采集,但这在智能家居IoT行不通,因为我们不能总是拿着麦克风,这有违我们平时的使用习惯。 为此我们希望能针对智能电视和各种智能家电以及在户外的各种场景,引入能脱离手持麦克风而跟设备进行自然的、智能的语音交互。
但在这些远场的语音交互中,因为说话者离麦克风距离很远,这面临的第一个问题就是低的信噪比。 如果本机播放音乐和合成音跟你交互,本机的混响回到本机设备,就又面临低的回声比,干扰很大。
除了本机发出的声音,我们在音箱上面临着电视的干扰、周围很多人群聊天的干扰。 而在电视上遇到的场景就更复杂了。 例如卖场场景中遇到的最大问题是,封闭的卖场里两排电视上下平着过去,一个房间三面墙都着放着电视,这些电视都是开着给大家做演示,同时有大量的购买者参观,主讲人、促销人如何在这样的场景里演示,给大家展示语音交互的体验呢? 这也是我们需要解决的问题。
还有一点,无论是家居环境甚至开放环境,回响的时间RT60非常长(一般是200到700毫秒); 在嘈杂的会议室场景,RT60更是长达1.5秒到2秒; 至于户外的场景里,空旷的楼宇之间,甚至更空旷的场景里,回响的时间就更长了。
“这些噪音、低信噪比是我们在IoT的设备上做人机语音交互面临的第二个挑战”,周伟达补充说。
第三个挑战是全场景的智能交互;
周伟达指出,IoT应用的设备五花八门,但现在的语音技术还不能绝对做到非常通用的语音识别,语音识别跟背后的语音模型带来的领域知识大多都需要定制。 这在日常的交流没问题,现在的机器对这块的问题很容易解决。 但在面临一些特殊的专业名词,面临一些外来语,中文加上英文时,我们就需要定制、需要输入热词。
“如何方便开发者、客户进行人机语音交互的技能定制,这是我们面临从实验室单个设备、单个产品技术的优化走向市场化、规模化的巨大挑战”,周伟达告诉记者。
其他如需要唤醒词,机器对与人的交流过程中的语义不够理解等问题,也是限制了物联网时代语音交互技术发展的要素。
思必驰的应对之法
从周伟达的介绍我们得知,思必驰从成立伊始就一直专注于语音交互技术,并在车载、家居、机器人领域获得了成功。 近年来,因应时代的发展需求,思必驰除语音算法方案外,推出DUI开放平台和AI芯片。 AIOT业务是思必驰的重要领域之一,在泛物联网领域(包括智能车载、智能家居、智能玩具/机器人、智能穿戴等)提供软件、软硬一体化、Turnkey一站式等多样化方案。 得益于公司深厚的技术积累,思必驰在物联网市场初战告捷。 据了解,思必驰的语音交互技术占领了70%的智能音箱市场。
旗开得胜之后,思必驰进一步加大投入去夯实这个市场的地位。 例如针对上述说的几个问题,周伟达也抛出了他们的应对之法:
首先在面对低功耗的问题,行业内的解决方法基本上“解决算法+硬件”。 思必驰也毫不例外地基于IP、主频和芯片面积等方面选择已有的硬件。
周伟达表示,很多场景下人和机器是没交互的,那么我们就可以在场景安静的时候进行降频处理、降级处理,降低功率。 在语音出现的场景,我们再根据检测语音的结果决定是否开始采样、开始做后面的语音监听,这就能够帮助节省功耗。
“此外,低功耗的处理还需要从算法上解决目前硬件解决不了的问题”,周伟达说。
根据他的说法,以前大部分的VAD是麦克风采样完以后会用VAD的算法检测语音,但采用这种方式将会增大功耗,切我们能检测的是有没有声音启动系统。 为了响应人声交互,我们必须帮助设备做到白天晚上都在监控。 而在极安静的情况下,设备是睡眠的,这时候我们就需要有模拟的VAD。
在这个过程中,除了要监测声音,还需要用算法来监监测收到的是否是人声,并在采样的时候就需要做缓存,把整段声音录下来,避免出现信息丢失的情况,这就是初始目标的识别; 检测人的时候,旁边的声音很多包括有干扰,要是做到低功耗首先做低级的简单处理再做二级高精度处理,再做本地识别。 “整个过程中,本来复杂的算法一次搞定为了满足低功耗的要求,我们逐级计算性能,逐级把极少的场景下启用高功耗,大部分的场景下保持低功耗工作”,周伟达说。
面对远场和高噪音的问题,思必驰首先针对远场,在前端推出了环形四麦和环形六麦。 同时他们还把接触传播和空气传播两种不同性质采集单元结合在一起做降噪处理、融合,然后再结合设备自噪声进一步降低噪音; 至于前面提到的多模态交互的问题,周伟达指出,除了语音外,还需要要配合其他的传感器,特别是视觉传感器才能实现。
另外,面对机器与人沟通时的交互自然度和不该停而停等问题,思必驰推动了全双工技术的发展。 从人的检测、VAD的检测以及语音识别判断句子的完整性、意图的完整性,通过整个系统架构的配合,把语音信号的处理、识别往本地移,加速这个过程。 据周伟达介绍,思必驰在某些场景已经实现了人跟机器的自然交互。 未来他们将会努力把人机交互做到更智能,最终实现智能的打断、智能纠正和抗干扰。 思必驰同时还在尽力解决全场景的语音交互的问题,这个实现了之后,就能让消费者准确地在家里众多设备中,找到了想要“交流”的设备。
除此之外,前面谈到的很多关于定制的问题,如果利用思必驰可以实现语义、对话、内容的定制,识别、语义理解、合成、内容服务的DUI平台就能完美解决。
周伟达告诉记者,他们现在能为智能音箱、音箱类、泛音箱类、冰箱、空调、洗衣机、控制面板、电脑、小家电、厨电、卫生间电器、智能手机、智能手环、智能手表、智能平板、儿童类故事机、机器、手表、学习平板、编程机器人和企业会议系统提供语音解决方案。
自研芯片是最强的补充
正如前面所说,“算法+硬件”的完美配合是解决语音交互问题的最行之有效的方法。 作为一个以算法和软件闻名的厂商,思必驰一开始的做法是使用自研的算法与第三方的硬件配合提供解决方案。 但周伟达指出,随着低功耗逐渐成为需求,传统的第三方硬件已经不再能给他们提供更多的支持,为了取得更好的效果,他们开始探索自研芯片,并于2018年3月成立了专注于芯片研发的深聪智能,在去年年底,公司更是推出了其首款芯片TH1520 。
据介绍,TH1520 是根据思必驰对语音交互算法的掌握及对市场的理解,自主定义开发的“芯片+算法”人工智能人机语音交互解决方案。 可实现 AI 关键字和指令识别,低功耗唤醒,并且可以良好的将芯片硬件和算法融合。 而他们自研目标是赋予所有的设备,小到一个开关,大到大型工业设备,简单到只有八位 MCU,复杂到八核 SOC, 无论在线还是离线,都能具备人机语音交互的能力。
深聪智能CTO朱澄宇
深聪智能CTO朱澄宇也指出,通过提供自研芯片+自研算法的方法,一方面可以让客户在拿到方案之后,获得更好的体验; 另一方面,这个专门设计的芯片,也让整个方案拥有更低的功耗,满足当下的物联网需求; 当然,芯片与算法都是自研,带来的成本优势也是相当明显的; 再加上思必驰在他们的芯片中加入了众多的接口,增强了其扩展能力。
朱澄宇表示,公司的第一代芯片作为一个试水产品,解决了关键字和指令的识别; 而在接下来的第二代芯片,则要解决本地语音识别、安全特征、声纹等问题。 公司也会采取更深度的融合,从算法到基础IP都做专门的优化,达到更好的目的; 至于下一代芯片,那就是更进一步去解决多模态问题。 “在实现这个的过程中,我们也会考虑用到存储、工艺、封装的优化”,朱澄宇强调。
在问到公司未来的发展的时候,周伟达告诉记者:
“人工智能是不能一触而就的,它不能像互联网那样,可以几年做到几百亿美金。 这是一项能为多个领域赋能的技术,但要落地才能让人真正感受到这是一个很厉害的技术。 我们未来的发展是追求技术的领先,探索更多的落地可能,给大家带来进步和改变。 ”