清华大学教育研究,清华大学教育研究期刊
目前,人工智能计算既耗电又计算昂贵。大多数边缘设备上的人工智能应用涉及将数据从设备转移到云端,在云端人工智能处理和分析数据,然后将结果移回到设备上。然而,因为大多数边缘设备是由电池供电的,因此只有有限的电力可以专门用于计算。那么如何可以减少边缘人工智能推理所需的功耗呢?同时,在人工智能芯片上,将数据从存储器转移到计算单元是一个主要瓶颈——”这相当于用八小时的通勤来换取两小时的工作时间”。
鉴于此,斯坦福大学H.-S. Philip Wong教授(台积电前副总裁)、Wan Weier博士,加州大学圣地亚哥分校Gert Cauwenberghs、Siddharth Joshi和清华大学的吴华强教授与高滨副教授合作设计并制造了一种芯片(Neu RRAM神经形态芯片),它可以直接在内存中运行计算,并可以运行各种各样的人工智能应用–所有这些都只需要通用人工智能计算平台所消耗能量的一小部分。Neu RRAM神经形态芯片使人工智能离在广泛的边缘设备上运行更近了一步,这些设备与云断开连接,可以随时随地执行复杂的认知任务,而无需依赖与集中式服务器的网络连接。在世界的每个角落和我们生活的每个方面都有大量的应用,从智能手表到VR头盔、智能耳塞、工厂的智能传感器和太空探索的漫游车。Neu RRAM芯片不仅比最先进的 “内存中计算 “芯片(一类在内存中运行计算的创新混合芯片)的能效高一倍,它还能提供与传统数字芯片一样准确的结果。传统的人工智能平台体积大得多,通常被限制在使用在云端运行的大型数据服务器。此外,Neu RRAM芯片是高度通用的,支持许多不同的神经网络模型和架构。因此,该芯片可用于许多不同的应用,包括图像识别和重建,以及语音识别。相关研究成果以题为“A compute-in-memory chip based on resistive random-access memory”发表在最新一期《Nature》上。
【芯片设计方法】
为了解决将数据从存储器转移到计算单元的耗时问题,研究人员使用了所谓的电阻式随机存取存储器,这是一种非易失性存储器,可以直接在存储器中进行计算,而不是在单独的计算单元中进行计算。RRAM和其他作为神经形态计算的突触阵列使用的新兴内存技术是在PhilipWong的实验室开创的。用RRAM芯片进行计算不一定是新鲜事,但一般来说,它会导致在芯片上进行的计算的准确性下降,并且芯片的架构缺乏灵活性。Neu RRAM的新之处在于,现在的极端效率与各种人工智能应用的巨大灵活性相结合,与标准的数字通用计算平台相比,几乎没有精度损失。一个精心设计的方法是这项工作的关键,在硬件和软件的抽象层中进行多层次的 “共同优化”,从芯片的设计到其配置,以运行各种人工智能任务。此外,该团队确保考虑到从存储设备物理学到电路和网络架构的各种约束。
图 1. Neu RRAM芯片的设计方法和主要贡献
【芯片性能】
研究人员通过一种被称为“能量-延迟积”或”EDP”的措施来测量芯片的能源效率。EDP结合了每个操作所消耗的能量和完成该操作所需的时间。根据这一衡量标准,Neu RRAM芯片实现了1.6至2.3倍的EDP(越低越好),计算密度比最先进的芯片高7至13倍。
研究人员在该芯片上运行了各种人工智能任务。它在手写数字识别任务中达到了99%的准确率;在图像分类任务中达到了85.7%;在谷歌语音命令识别任务中达到了84.7%。此外,该芯片还在图像恢复任务中实现了图像重建误差减少70%。这些结果与现有的在相同比特精度下进行计算的数字芯片相当,但却大大节省了能源。
研究人员指出,该论文的一个关键贡献是所有的结果都是直接在硬件上获得的。在以前的许多内存中计算芯片的工作中,人工智能的基准结果往往是部分通过软件模拟获得的。接下来的步骤包括改进架构和电路,并将设计扩展到更先进的技术节点。研究人员还计划解决其他应用问题,如尖峰神经网络。
图 2. Neu RRAM 芯片的可重构架构
图 3. 具有多位输入和输出的电压模式 MVM
【新架构】
Neu RRAM的能源效率的关键是一种创新的方法来感知存储器中的输出。传统的方法使用电压作为输入,测量电流作为结果。但这导致了对更复杂、更耗电的电路的需求。该团队在Neu RRAM中设计了一个神经元电路,它能感知电压并以节能的方式进行模数转换。这种电压模式感应可以在一个计算周期内激活RRAM阵列的所有行和所有列,允许更高的并行性。
在Neu RRAM架构中,CMOS神经元电路与RRAM的权重进行了物理交错。它不同于传统的设计,CMOS电路通常在RRAM权重的外围。神经元与RRAM阵列的连接可以被配置为作为神经元的输入或输出。这允许神经网络在各种数据流方向上进行推理,而不会产生面积或功耗方面的开销。这反过来又使该架构更容易重新配置。
为了确保人工智能计算的准确性能够在各种神经网络架构中得到保留,研究人员开发了一套硬件算法共同优化技术。这些技术在各种神经网络上得到了验证,包括卷积神经网络、长短期记忆和受限玻尔兹曼机。
作为一个神经形态的人工智能芯片,Neuro RRAM在48个神经突触核心上执行平行分布式处理。为了同时实现高通用性和高效率,Neu RRAM支持数据并行,将神经网络模型中的一个层映射到多个核心上,以便对多个数据进行并行推理。同时,Neu RRAM通过将模型的不同层映射到不同的核心上,并以流水线的方式进行推理,提供了模型并行性。
图 4. 提高 Neu RRAM 推理精度的硬件算法协同优化技术
图 5. 显示硬件算法协同优化技术功效的测量结果
【小结】
通过从算法和架构到电路和设备的所有设计层次的共同优化,作者提出了Neu RRAM–一种基于RRAM的CIM芯片,它同时提供了为不同模型架构重新配置CIM核心的通用性,在各种计算位精度方面的能效比以前最先进的RRAM-CIM芯片高两倍,以及在各种人工智能任务中与量化为4位权重的软件模型相媲美的推断精度,包括在MNIST上的99%和85.7%的CIFAR-10图像分类准确率,84.7%的谷歌语音命令识别准确率,以及在贝叶斯图像恢复任务中图像重建误差减少70%。
–3D打印展–
来源:高分子科学前沿
声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!
清华大学教育研究(清华大学教育研究期刊)
清华大学教育研究(清华大学教育研究期刊)
评论列表 人参与