打破模拟光学神经网络计算的扩展限制 - 创新科技（人工智能）－全球企业门户

摘要: MIT的新技术大大降低了光学神经网络中的误差，该网络使用光而不是电信号来处理数据。通过他们的技术，光学神经网络变得越大，其计算中的误差就越低。这将使他们能够扩大这些设备的规模，使它们大到足以用于商业用途。

随着机器学习模型变得更大、更复杂，它们需要更快、更节能的硬件来执行计算。传统的数字计算机正在努力跟上。

模拟光学神经网络可以执行与数字神经网络相同的任务，例如图像分类或语音识别，但由于计算是使用光而不是电信号进行的，因此光学神经网络可以运行速度快很多倍，同时消耗更少的能量。

然而，这些模拟设备容易出现硬件错误，从而降低计算的准确性。硬件组件中的微观缺陷是造成这些错误的原因之一。在具有许多连接组件的光学神经网络中，错误会迅速累积。

即使使用纠错技术，由于构成光学神经网络的设备的基本特性，一些错误也是不可避免的。一个大到足以在现实世界中实施的网络将过于不精确而无法发挥作用。

麻省理工学院的研究人员克服了这一障碍，找到了一种有效扩展光学神经网络的方法。通过在构成网络架构的光开关中添加一个微型硬件组件，它们甚至可以减少设备中可能存在的不可纠正的错误。

他们的工作可以实现超快速、节能的模拟神经网络，运行精度与数字神经网络相同。随着光路变大，使用这种技术的计算误差量实际上会减少。

“这很了不起，因为它与模拟系统的直觉相反，在模拟系统中，较大的电路应该有较高的错误，因此错误会限制可扩展性。本文使我们能够解决这些系统的可扩展性问题明确的‘是’，”主要作者 Ryan Hamerly 说，他是麻省理工学院电子研究实验室 (RLE) 和量子光子学实验室的访问科学家，也是 NTT Research 的资深科学家。

这篇论文让我们能够以明确的肯定回答来解决这些系统的可扩展性问题，”主要作者Ryan Hamerly说，他是麻省理工学院电子研究实验室（RLE）和量子光子学实验室的访问科学家，也是NTT研究所的高级科学家。

Hamerly的合著者是研究生Saumil Bandyopadhyay和高级作者Dirk Englund，后者是麻省理工学院电气工程和计算机科学系（EECS）的副教授，量子光子学实验室的领导者，也是RLE的成员。这项研究发表在《自然通讯》上。

与光相乘

光学神经网络由许多连接的组件组成，这些组件的功能类似于可编程、可调的镜子。这些可调反射镜称为马赫-曾德尔干涉仪 (Mach-Zehnder Inferometers，MZI)。神经网络数据被编码成光，从激光射入光学神经网络。

典型的MZI包含两个反射镜和两个分束器。光进入MZI顶部，在那里被分成两部分，在被第二个分束器重新组合之前相互干涉，然后从底部反射到阵列中的下一个MZI。研究人员可以利用这些光信号的干扰来执行复杂的线性代数运算，称为矩阵乘法，神经网络就是这样处理数据的。

但是，随着光从一台设备移动到另一台设备，每个MZI中可能出现的错误会迅速累积。人们可以通过提前识别错误并调整MZI来避免一些错误，这样较早的错误就会被阵列中较晚的设备抵消。

“如果你知道错误是什么，这是一个非常简单的算法。但众所周知，这些错误很难确定，因为你只能访问芯片的输入和输出，”Hamerly说。“这促使我们研究是否有可能创建免校准纠错。”

Hamerly和他的合作者之前展示了一种更有深度的数学技术。他们可以成功地推断错误并正确调整MZI，但即使这样也没有消除所有错误。

由于MZI的基本性质，在某些情况下无法调整设备，因此所有光都会从底部端口流出到下一个MZI。如果设备在每一步都损失了一小部分光并且阵列非常大，那么到最后只会剩下一点点能量。

“即使有纠错，芯片的好坏也有一个基本的限制。MZI在物理上无法实现它们需要配置的某些设置，”他说。

因此，该团队开发了一种新型MZI。研究人员在设备末端添加了一个额外分束器3-MZI，这就具有三个分束器而不是两个。由于这个额外的分束器混合光线方式，MZI更容易达到它需要的设置，通过底部端口从外面发送所有光线。

重要的是，附加分束器的尺寸只有几微米，并且是无源元件，因此不需要任何额外的布线。添加额外的分束器不会显著改变芯片的尺寸。

芯片越大，错误越少

当研究人员进行模拟测试这些架构时，他们发现可以消除许多妨碍准确性的不可纠正的错误。随着光学神经网络变得更大，设备中的误差量实际上下降了——与标准MZI设备中发生的情况相反。

Hamerly说，使用3-MZIs，他们有可能创造出一个足够大的用于商业用途的设备，并且误差可减少20倍。

研究人员还开发了一种专门针对相关误差的MZI设计变体。这些问题是由于制造缺陷造成的——如果芯片的厚度稍有错误，MZI可能都会偏移大约相同的量，因此误差都差不多。他们找到了一种方法来更改MZI的配置，使其对这些类型的错误具有鲁棒性。该技术还增加了光学神经网络的带宽，使其运行速度提高了三倍。

使用模拟技术，Hamerly和他的合作者已经进行了展示，并计划在物理硬件上测试这些方法，将继续朝着可以在现实世界中有效部署的光学神经网络前进。查询进一步信息，请访问英文网站

http://news.mit.edu/2022/scaling-analog-optical-computing-1129。（镨元素）