加入收藏
 免费注册
 用户登陆
首页 展示 供求 职场 技术 智造 职业 活动 视点 品牌 镨社区
今天是:2025年5月1日 星期四   您现在位于: 首页 →  技术 → 半导体器件(技术聚焦)
内存计算(IMC) 实现方法及芯片供应形式
2023/1/6 15:41:36    
内存计算(In-Memory Computing, IMC) 是一种基于RAM数据存储和索引的技术,由MIT研究组提出,其主要目的是加速卷积计算。

我们知道,卷积计算可以扩展为加权累加计算。从另一个角度看,其实是多个数字的加权平均。因此,该电路实现了电荷畴的加权平均。权重(1位)存储在SRAM中,输入数据(7位数字信号)通过DAC变为模拟信号。根据SRAM中对应的权重,输出在模拟域中乘以1或-1,在模拟域中求平均值,最后由ADC作为数字信号读出。具体地说,由于乘法的权重是1比特(1或-1),所以可以简单地通过使用开关和差分线来控制它。如果权重为1,则差分线一侧的电容充电到所需的输出值。否则,让差分线的另一端充电到这个值。至于平均值,将电荷域中的几条差分线连接在一起。

当然,内存计算的电路不止一个,计算精度也不限于1位。但是我们可以从上面的例子看出,内存计算的核心思想一般是将计算转化为加权计算。将权重存储在存储单元中,然后对存储器的核心电路(例如读出电路)进行修改。以至于读取的过程就像是输入数据和权重在模拟域相乘的过程,也就是卷积。因为卷积是AI和其他计算的核心部分,所以内存计算可以广泛应用于此类应用。内存计算使用模拟电路进行计算,这是与传统数字逻辑计算的区别。

在更传统的架构中,有一些乘法累加电路(MAC)用于张量数学,尤其是矩阵乘法。这些架构试图以将权重和激活移动到适当位置的方式来安排MAC。激活是从先前的神经网络层计算的。乘法通常涉及激活和权重,两者都必须移动到相乘的地方。因此,如果权重存储在存储器中,则存储器可以通过激活来访问,以获得乘法和累加。与实际内存的唯一区别在于,内存计算一次连接所有字线,而不是对输入进行解码以仅获得一条字线。

尝试进入模拟域,将存储单元作为模拟单元而不是数字单元对待,以降低消耗。我们已经有了在推理机前端使用模拟的方法。这就是内存计算。因此,我们采用数字数据,使用DAC将其转换为模拟值,然后用这些模拟内容驱动一个存储器,以获得模拟位线输出,最后使用ADC将结果转换回数字格式。然而,内存计算仍处于探索阶段,有许多具体的实现方法可以研究,目前有三种类型:RRAM、闪存、SRAM和DRAM。


基于RRAM


RRAM是最常见的方法,因为它通过将欧姆定律应用于一系列电阻而易于使用,但它仍然存在依赖RRAM的问题。编程和电阻之间的关系是非线性的,这需要做更多的工作来为市场制造RRAM存储器中可行的计算电路。所以只是一个想法,具体方案还在研究中。


基于Flash


NOR闪存具有更传统的字线/位线结构。它既是电阻性的又是电容性的。通常,存储单元是导通或截止的晶体管。然而,如果它是部分导电的,它可以用作电阻器。电阻取决于存储单元(电容器)的浮栅上的电荷量。当一直运行时,电池将传导至其最大容量。在此过程中,它根本不导电,但是,它可以被部分编程。有一个问题是,你不能精确地控制电子的数量。此外,对任何数字的响应将随着过程和温度以及其他变量而变化。

两家公司正在研究这种方法。由于收购了SST,Microchip拥有了他们的memBrain array,Mythic是一家初创公司,致力于使用闪存进行内存计算的推理引擎。两家公司都表示,他们正在使用广泛的校准技术来应对这种变化。

另一个问题是,随着时间的推移,闪存电池会失去电子。电子会四处流动,这就带来了一个有趣的话题:在这种类型的存储器阵列上,数据保持力和持久性会是什么样的?

从应用角度看,要看是要用在云计算还是边缘推理机。在边缘,它可以在设备的整个生命周期中执行某些固定的推理功能。因此,如果有足够多的数组,那么您将首次加载权重,并且不再需要对其进行编程(除非您进行更新),因为闪存是非易失性的。尽管您仍然需要移动激活,但是没有必要移动权重,权重将永久存储在数组中。这将表明数据持久性(在累积损坏将电子泄漏加速到不可接受的水平之前器件可以被编程的次数)并不重要,它只需要编程一次。

相比之下,在云应用程序中,设备可能会作为通用计算资源共享,因此这需要为每个新应用程序重新编程。这意味着电池寿命在云中变得更加重要。Mythic声称有一个10K写周期,并观察到即使它每天都被重新编程,也将持续10年以上。

如果为它设置一个模拟值并在单元格中使用一个模拟值,那么理论上,每个电子都是重要的。但是,如果有足够的电子迁移,就需要刷新存储单元,或者以某种方式补偿电子的变化。因为今天同样的模拟输入会产生与一年前不同的结果。校准电路还可以处理一些老化问题。然而,对于数据保留,Mythic表示他们会定期更新存储在闪存中的重量值。这将使持久性而不是数据保留成为主要的磨损机制。微芯片表示,其数据保留时间为TBD,但它可能会每季度或每年对设备进行重新编程,以恢复该单元。

所以他们需要大量高质量的ADC和DAC来保持信噪比在精确推理的范围内,这是设计工作的重点。Mythic声称,他们提供了一种新颖的ADC,以便微芯片可以共享它,以减少所需的数量。虽然ADC确实会消耗能量,但它也大大降低了整体系统功耗。


基于SRAM


这个想法来自普林斯顿大学Hot Chips的一次讲座。根据定义,SRAM是一个双稳态单元。因此,它不能处于中间状态,这应该如何处理?就面积和功耗而言,需要校正的DAC和ADC比阵列多。

这个问题的重点归结为如何模拟的问题。他们解释说,这种方法使用一个以上的位线进行计算。由于单位仍然是一个数字值,它需要几个位线来执行计算。位线可以被分割,不同的组执行不同的乘法。下图说明了这一点。

一次8个输入,因此输入向量被切片,并且执行几次连续的乘法以获得最终结果。位线电荷沉积在电容器上。准备读取时,电荷被读出并发送至ADC,以便转换回数字域。它们的基本单元结构如下:

这些电容器可能会影响芯片尺寸问题,但他们表示,电池上方的金属可以使用。当然,现在一个单元比标准的6T SRAM单元大80%(即使没有电容器),但他们说他们的整体电路仍然比基于标准数字实现的所需电路小得多。此外,由于它们的基本阵列操作仍然是数字形式,因此对噪声和变化不太敏感,这意味着它们的ADC可以更简单,功耗更低。

这种想法是指不使用大量的电力来获取DRAM内容,并以某种方式将计算纳入CPU或其他计算结构,并直接在DRAM芯片上运行,这就是UPMEM所做的。一个简单的处理器建立在DRAM芯片上,该架构也不会与Xeon芯片竞争,他们称之为“内存处理”或PIM。

他们不是将数据转化为计算,而是将计算转化为数据。运行时由DRAM芯片中的CPU执行。也就是说,不需要将数据移动到DRAM芯片之外的任何位置,只需将计算结果发送回主机系统。此外,由于最大似然计算通常涉及大量的简化,计算所需的数据较少。尽管这确实需要对DRAM进行一些小的改动,但它们并没有改变制造工艺。在这种情况下,标准DRAM模块将为分布式计算提供多种机会。同时,使用这个函数编写程序也变得复杂起来。

他们表示,使用PIM offload的服务器的功耗是连接到没有PIM的DRAM模块的标准服务器的两倍。然而,由于吞吐量是20倍,它仍然为他们提供了10倍的能效优势。此外,这种方法有助于抵御侧信道安全攻击。因此,最初包含在一个或多个CPU中的一组计算线程流向DRAM。因此,有必要检查所有的DRAMs并以某种方式找出线程在哪里,但这将是一项艰巨的任务。


由于人们早就认识到了“内存墙”问题,具有高能效比的内存计算引起了人们的关注。对于内存计算,内存特性通常决定了内存计算的效率。因此,新内存的改进通常会推动内存计算的发展。例如,最近流行的ReRAM使用电阻调制来存储数据,因此每位的读出使用电流信号而不是传统的电荷信号。这样,电流累积就是一个非常自然的操作(直接把几个电流组合起来,达到电流之和,甚至不需要额外的电路)。也就是说ReRAM非常适合内存计算。

用于内存计算的芯片产品预计有两种形式。第一种形式是作为具有计算功能的内存IP出售,这种存储器IP可以是传统的SRAM,或者诸如eFlash、ReRAM、MRAM和PCM之类的新存储器。第二种形式是基于内存计算直接构建AI加速芯片,例如Mythic计划制造基于闪存的PCIe加速卡,即通过PCIe接口与主CPU访问数据,权重数据存储在记忆芯片上,当数据发送到IPU时直接读出计算结果。(张嘉汐,产通发布)
→ 『关闭窗口』
 365pr_net
 [ → 我要发表 ]
上篇文章:什么是边缘计算?和云计算之间有何区别?
下篇文章:为什么使用双极性晶体管驱动功率LED?
→ 主题所属分类:  半导体器件 → 技术聚焦
 热门文章
 如何申请EtherCAT技术协会(ETG)会员资格 (184265)
 台北国际计算机展(COMPUTEX 2015)参展商名… (106019)
 上海市集成电路行业协会(SICA) (94077)
 USB-IF Members Company List (84421)
 第十七届中国专利优秀奖项目名单(507项) (76304)
 苹果授权MFi制造商名单-Authorized MFi Lic… (70151)
 台北国际计算机展(COMPUTEX 2015)参展商名… (69443)
 中国130家太阳能光伏组件企业介绍(3) (56571)
 PLC论坛 (53351)
 中国130家太阳能光伏组件企业介绍(2) (49901)
 最近更新
 一本面向设计工程师精心修订和更新的《ESD应用手册… (3月10日)
 表皮电子学的代表作:石墨烯纹身 (2月26日)
 在晶圆级大规模生产中引入脉冲激光沉积(PLD)技术 (1月21日)
 你听说过PiezoMEMS技术吗? (1月21日)
 旨在挑战EUV的纳米压印光刻技术(Nanoimprint L… (1月3日)
 新UV光刻机专利显著提高能效并降低半导体制造成本 (11月6日)
 将GaN极性半导体晶圆的两面用于功能器件 (9月30日)
 驱动增强终端侧生成式AI体验的技术:LoRA (6月11日)
 AI TOPS和NPU性能指标指南 (6月11日)
 驱动增强终端侧生成式AI体验的技术:多模态生成式AI (6月11日)
 文章搜索
搜索选项:            
  → 评论内容 (点击查看)
您是否还没有 注册 或还没有 登陆 本站?!
关于我们 ┋ 免责声明 ┋ 产品与服务 ┋ 联系我们 ┋ About 365PR ┋ Join 365PR
Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市产通互联网有限公司 版权所有
E-mail:postmaster@365pr.net 不良信息举报 备案号:粤ICP备06070889号