英特尔AI芯片业务的现在与未来发展

2019-06-04 11:02

Nervana

早在2017年，英特尔首次宣布其正在研发的两款AI加速器芯片：一款用于推断工作负载，另一款用于训练。今年1月份，英特尔在消费电子展（Consumer Electronics Show，简称CES）新闻发布会上进一步详细介绍了这款推断产品。它被称为Nervana神经网络处理器（Nervana Neural Network Processor，即NNP－I），它适用于PCIe插槽（或基于OCP加速器模块规格的夹层板），采用10nm工艺制造，并涵盖了基于英特尔Ice Lake架构处理器的一般性操作，以及神经网络加速。

NNP－I针对图像识别进行了优化，其架构与其他芯片截然不同；它没有标准的缓存层次结构，其处理器内嵌的内存由软件直接管理。Singer表示，由于其高速的芯片内外互连，NNP－I 能够将神经网络参数分散到多个芯片上，从而实现非常高的并行性。此外，它还使用了一种新的数字格式—— Flexpoint，这种格式可以提高推断任务中至关重要的标量计算，让芯片能够适应大型机器学习模型，同时保持“行业领先”的功耗。

Singer表示，“图像可能是最适合加速器的情况，因为很多图像识别功能都是矩阵乘法。“自然语言处理和推荐系统需要更多的混合类型的计算，该CPU核心可以在本地执行大量的张量活动和 CPU 任务，而无需将数据移出芯片。”

NNP－I的量产仍然任重道远，但Singer表示，它已经在英特尔的实验室中运行了多种拓扑结构。他预计今年有望投入生产，支持Facebook的Glow Compiler——这是一款机器学习编译器，旨在加速深度学习框架的性能。

上述代号为“Spring Crest”的加速芯片Nervana Neural Net L－1000可能与 NNP－I 一起出现。这种16nm 芯片的24个计算集群提供的AI训练性能是同类芯片的10倍，是英特尔首款NNP芯片Lake Crest的3－4倍。

Singer不愿透露更多信息，但他表示，有关Spring Crest 的更多细节将在未来几个月内公布。

光子集成电路

根据英特尔AI产品部门内负责硅光子组的Wierzynski所说，NNP－I和Spring Crest之外的芯片可能与如今的AI加速器芯片截然不同。目前，光子集成电路（光学芯片的基础）的工作正在进行中，与同类电子集成电路相比，光子集成电路有许多优点。

Wierzynski表示：“几年前，麻省理工学院出版的一篇论文吸引了我的注意。文中提到了在电子产品使用光子。光子具有非常好的特性，它们可以在物质中快速移动，而且你可以通过一些方式控制光，让它为你做有意义的事请。”

Wierzynski指的是总部位于波士顿的光子技术创业公司Lightelligence首席执行官沈亦晨，与师从麻省理工学院物理系教授Marin Soljacic的一名光子材料的博士学生于2017年在《自然光子学》杂志上发表的一篇研究论文，文中描述了一种利用光学干涉实现神经网络工作负载的新方法。

Wierzynski说：“加速深度学习的关键问题之一是，在芯片越来越小的情况下，如何满足这种延迟越来越低的需求？我们在挑战硅芯片的极限。这说明一方面你需要一定的计算性能，同时又需要在一定程度上控制功耗。”

为此，像Lightelligence这样的光学芯片只需要有限的能量，因为光产生的热量比电少。而且光也不易受环境温度、电磁场和其他噪音的影响。

此外，采用光子的设计中，延迟比硅材料改善了10，000倍，同时功耗水平还降低了几个数量级。在初步的测试中，与最先进的电子芯片相比，某些矩阵矢量乘法运算速度提高了100倍。

Wierzynski说：“我们希望你能够使用与人们现在使用的AI模型很相近的模型。我们也正在学习更多关于如何大规模构建光子电路的知识。这听起来很像《星际迷航》。”

然而，这并非一件易事。正如Wierzynski所指出的那样，除了矩阵乘法之外，神经网络还有第二个基本特征：非线性。如果没有非线性，那么神经网络只能简单地计算输入的加权和，而不能做出预测。遗憾的是，关于在光学领域中可以执行何种非线性操作的问题仍然存在。一种可能的解决方案是，在同一芯片上结合硅和光学电路的混合方法。Wierzynski表示，神经网络的一些部分可以采用光学的方式运行，而其余的部分则仍以电子的方式运行。

但是，这并不能解决光学芯片的缩放问题。速度非常快的光子电路需要快速的存储器，而且还需要将所有元件（包括激光器、调制器和光学组合器）全部封装在大约200毫米的晶圆上。

Wierzynski说：“任何制造过程中都存在不完善之处，这意味着芯片内部和芯片之间会有细微的变化，这些会影响计算的准确性。”

幸运的是，他和同事们正在努力寻找解决方案。在最近的一篇论文中，他们描述了在马赫－曾德尔干涉仪（Mach–Zehnder interferometer，简称MZI）上构建AI系统的两种架构，MZIs 是一种光子电路，经过设置后可以在两束光的相位相关的量之间执行2×2矩阵乘法。

在基准手写数字识别（MNIST）的深度学习任务上，对这两种体系结构进行模拟训练后，研究人员发现，在双精度浮点的精度下，GridNet 的准确度比FFTNet更高（98％对95％）。重要的是，FFTNet表现出强大的稳健性，即使加入了人工噪声，它的准确率也从未低于50％。

Wierzynski表示，这项研究为人工智能软件训练技术奠定了基础，可以避免在制造后对光学芯片进行微调，因此省时省力。

他补充道：“这是英特尔在过去几十年中为光电路开发的非常复杂的制造技术，同时英特尔也赋予了这种技术一个全新的目的。虽然目前这种技术还处于初期阶段，这个领域内还有大量工作需要做，但我已然兴奋不已了。”

<上一页 1 2