后摩尔时代的机器学习需要怎样的芯片？

2019-11-25 14:00:25 来源: 半导体行业观察

点击

大数据文摘专栏作品

作者： Christopher Dossman

编译： Olivia、Vicky、云舟

几年前，谷歌的一组研究人员和工程师构建了DistBelief，这是一个早期的分布式系统，用于实现大规模神经网络的并行和分布式训练。DistBelief让在非常大的数据集上训练更大的神经网络成为可能。使用DistBelief作为底层的基础框架，可以提高语音识别和图像分类模型的准确性。通过DistBelief获得的结果使研究人员考虑为神经网络的推理和训练来构建专门的硬件。

本文由谷歌研究院的Jeffry Dean撰写，是2020年国际固态电路会议（ISSCC）主题演讲的一篇配套论文，它描述了机器学习的进展及其对各种计算设备的影响，特别是在后摩尔定律时代。

不能否认的是，当今机器学习研究领域的发展速度非常之快，这对计算机架构师构建强大的机器学习硬件提出了越来越大的挑战。但在另一方面，对于机器学习帮助解决电路设计过程中的某些关键问题的讨论也甚嚣尘上。

本文通过采用比当今机器学习模型更动态的基于实例和任务的路由，为更大规模的多任务模型提供了一个有趣的蓝图。它试图通过设计和构建更强大的机器学习硬件来确保可以加速机器学习的研究和生产使用，这是具有里程碑式意义的。

原文：

https://arxiv.org/abs/1911.05289

PyTorch再添利器，3D深度学习大大加速

请欣赏由英伟达的研究人员为您带来的：Kaolin！Kaolin是一个新的PyTorch库，旨在加速3D深度学习研究。Kaolin这个名字来源于一种特殊的土壤，它常被用于建造三维模型的橡皮泥。

作为一款开源软件，Kaolin提供了用于深度学习系统的可微分3D模块的高效实现。它不但具有加载和预处理多个流行的3D数据集的功能，还可以操作网格、符号距离函数、点云和VoxelGrid等等。因此，它减少了编写样板代码的需要。

Kaolin还将几种可微分的图形模块打包在一起，包括照明、渲染、着色和视图变形等等。该平台还支持一系列损失函数和评估指标以实现无缝评估，并提供可视化功能来渲染3D结果。

Kaolin是加速3D深度学习研究的重要一步，它使3D深度学习应用变得直观易用。该平台为处理3D数据和构建3D深度学习架构提供了高效且易于使用的工具。通过广泛提供有效的样板代码，3D深度学习的研究者与实践者们可以更专注于开发其他应用程序。

Kaolin具有一个通用的模块化可微渲染器，可以轻松扩展到所有流行的可微渲染方法中；更重要的是，研究人员打算基于Kaolin建立一个强大的开源社区，使其成为未来3D 深度学习研究的家园。如果您有兴趣，欢迎加入社区并作出贡献作出贡献。

代码：

https://github.com/NVIDIAGameWorks/kaolin/

原文：

https://arxiv.org/abs/1911.05063v1

提高任务导向对话系统的稳健性

随着商业会话人工智能系统的不断发展和壮大，有关面向任务对话系统的研究引起了人们极大的兴趣。

在本文中，Facebook和谷歌的研究人员研究了面向任务对话的联合意图检测（语句分类）和语义槽填充（序列词标记）。

为了评估模型的稳健性，他们设计了一个由“对抗性”示例组成的测试集，这些示例可能会改变基本模型的预测，并运用到了两种方法：反向翻译和噪声序列自编码器。

为了提高基本模型针对随机噪音和语义的稳健性，研究人员提出了基于对抗性logit配对的方法来进行数据扩充和模型平滑。数据扩充无需手动注释，即能生成并添加训练数据；另一方面，logit配对针对原始句集和语义句集的处理方式有所不同，以确保模型能够做出平稳的决策，并且不会因为少量扰动而做出不同的决策。

在对话代理（如声控机器人、电子邮件机器人、聊天机器人）不断增长的同时，提升其功能并使其更强大的愿望同时也在增长。

本文提出的两种技术可以帮助研究者和实践者大幅提高面向任务的对话系统的稳健性，并且可以结合使用来产生最佳的结果。相信其他的数据增强技术在日后的工作当中也会越来越多。

原文：

https://arxiv.org/abs/1911.05153

别以为戴上口罩CNN就不认识你了

布加勒斯特大学（罗马尼亚）的研究人员提出了一种基于卷积神经网络（CNN）的方法，可用于有严重遮挡的人脸表情识别。该研究选择了两个预训练的CNN模型（VGG-f和VGG-face），并在两个阶段对其进行微调：第一阶段使用全脸图像进行微调、第二阶段使用遮挡了脸部上半部分的图像进行微调。

模型训练时通过水平翻转图像实现数据增强，并使用DSD训练防止过拟合。

该框架可以显著提高有遮挡时人脸识别模型的性能。研究人员专注于识别佩戴VR眼镜的人脸表情。相比传统模型中对整个面部进行训练，在这种情况下神经网络被迫针对人脸下半部分进行训练，并得到了较高的准确率。

大致来说，该框架通过提供一种有遮挡人脸的处理方法改进了标准人脸表情的识别系统，这是很有意义的。

原文：

https://arxiv.org/abs/1911.04852

Google AI：下一代设备嵌入型视觉模型简介

Google AI最近发布了MobileNetV3模型和针对Pixel 4 Edge TPU优化的MobileNetEdgeTPU模型的源代码。这两个模型体现了硬件敏感的AutoML技术和架构设计方面的最新进展。在移动CPU上，MobileNetV3以MobileNetV2两倍的速度得到了相同的准确度，从而提升了移动计算机视觉网络的最高技术水平。

在Pixel 4 Edge TPU硬件加速器上，MobileNetEdgeTPU在提高了模型准确度的同时，缩短了运行时间且降低了功耗，从而进一步扩大了技术边界。

Google AI在提供快速、准确且稳健的设备架构上一直处于领先地位，而此次MobileNetV3和MobileNetEdgeTPU的发布更是推进嵌入型视觉模型前进的一大步。

MobileNet GitHub页面上提供了MobileNetV3和MobileNetEdgeTPU的代码以及用于ImageNet分类的浮点数和量化检查点。

代码链接：

https://github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

Tensorflow目标检测API中提供了使用MobileNetV3和MobileNetEdgeTPU进行目标检测的开源实现。

代码链接：

https://github.com/tensorflow/models/tree/master/research/object_detection

TensorFlow的DeepLab中提供了使用MobileNetV3进行语义分割的开源实现。

代码链接：

https://github.com/tensorflow/models/tree/master/research/deeplab

原文：

https://ai.googleblog.com/2019/11/introducing-next-generation-on-device.html

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第2139期内容，欢迎关注。

后摩尔时代的机器学习需要怎样的芯片？

PyTorch再添利器，3D深度学习大大加速

提高任务导向对话系统的稳健性

别以为戴上口罩CNN就不认识你了

Google AI：下一代设备嵌入型视觉模型简介

相关文章

最新新闻

热门文章本日 七天 本月

热门评论

热门搜索

后摩尔时代的机器学习需要怎样的芯片？

PyTorch再添利器，3D深度学习大大加速

提高任务导向对话系统的稳健性

别以为戴上口罩CNN就不认识你了

Google AI： 下一代设备嵌入型视觉模型简介

相关文章

最新新闻

热门文章 本日 七天 本月

热门评论

热门搜索

Google AI：下一代设备嵌入型视觉模型简介

热门文章本日七天本月