 高性能芯片是半导体技术领域的奇迹,包含了数百亿个晶体管。但问题在于,你无法同时使用所有晶体管。如果你这样做,就会产生热点——即高温集中在一个微小区域内——其功率密度接近太阳表面的功率密度! 这导致了一个令人沮丧的悖论,即所谓的“暗硅(dark silicon)”现象,这是计算机架构师创造的一个术语,用来描述芯片中必须保持断电的晶体管日益增多。在任何给定时刻,现代芯片上多达80%的晶体管必须保持“暗态”,以防止芯片过热。虽然我们正在硅片上构建超级计算机,但实际上只利用了其潜力的一小部分。这就像建造了一座摩天大楼,却只能使用几个楼层。 多年来,该行业一直在通过更大的风扇和更复杂的液冷系统来应对这一散热极限。但本质上,这些解决方案都是“治标不治本”。无论是使用空气还是液体,它们都依赖于从芯片表面带走热量。热量必须首先通过硅传导到冷却板,这就形成了一个热瓶颈,在未来芯片的功率密度下,这一瓶颈根本无法克服。 当今,芯片上的热点每平方毫米就产生数十瓦热量,并且在计算过程中,这些热点会在芯片上的不同位置、不同时间出现。但是,空气和液体冷却系统很难在热点出现的时间和位置集中精力进行冷却,它们只能尝试整体冷却。 位于明尼苏达州圣保罗的初创公司Maxwell Labs提出了一种激进的新方法:先让热量消失,而不仅仅是移走热量。这种称为“光子冷却()”的技术能够将热量直接转化为光,从内到外冷却芯片。同时,能量将被回收并再循环回有用的电力。通过这种方法,我们可以在热点形成时以激光精度定位热点,而不是均匀冷却整个芯片。从根本上说,这种技术可以冷却每平方毫米数千瓦的热点,比今天的芯片冷却好几个数量级。 光冷却物理学 激光通常被认为是热源,因为它们最常用于切割材料或传输数据。但在适当的情况下,激光可以诱导冷却。秘密在于一种称为荧光的发光过程。 荧光是强光标记、珊瑚礁和白色衣服在黑光照射下发出的熟悉光芒背后的现象。这些材料吸收高能光(通常是紫外线),并重新发射低能光(通常在可见光谱中)。因为它们吸收的能量比发射的能量高,所以这种差异通常会导致材料发热。然而,在某些非常小众的条件下,可能会发生相反的情况:一种材料可以吸收低能光子并发出高能光,在此过程中冷却下来。 迄今为止,基于实验室的方法在掺镱石英玻璃中实现了高达90瓦的冷却功率。尽管如此,为了实现我们预期的高性能芯片的变革性效果,需要将冷却能力提高许多数量级。实现这一目标需要将光子冷却机制集成到薄膜、芯片级光子冷板上。小型化不仅可以通过紧密聚焦的光束实现更精确的热点空间定位,而且是推动激光冷却物理学向高功率和高效率发展的关键因素。更薄的层使光在离开薄膜之前不太可能被重新吸收,从而避免了加热。而且,通过在光波长的尺度上设计材料,可以增加对入射激光束的吸收。 光子冷板技术 在实验室中,工程师开发了一种利用光子冷却的方法来解决当今和未来CPU和GPU的热量问题。我们的光子冷板旨在感应功率密度增加的区域(新兴热点),然后将光有效地耦合到附近的区域,将热点冷却到目标温度。 光子冷板有几个组件:首先是耦合器,它将入射的激光耦合到其他组件中;然后是微制冷区,冷却实际发生的地方;接下来是后反射器,它可以防止光线直接照射到CPU或GPU上;最后是一个传感器,它在热点形成时检测热点。 激光通过耦合器从上方照射到目标区域:耦合器是一种将入射激光聚焦到微制冷区域的透镜。耦合器同时将进入的载热荧光引导出芯片。微制冷区也称作提取器,是真正神奇的地方:特殊掺杂的薄膜会发生反斯托克斯荧光。 为了防止入射的激光和荧光进入实际的芯片并加热电子设备,光子冷板包含一个后反射器。 至关重要的是,只有当激光照射到冷板上时,才会发生冷却。通过选择激光照射的位置,可以瞄准芯片上出现的热点。冷板包括一个检测热点的热传感器,能够将激光引向热点。 设计整个堆栈是一个复杂的、相互关联的问题,有许多可调参数,包括耦合器的确切形状、提取区域的材料和掺杂水平,以及后反射器中的厚度和层数。为了优化冷板,工程师正在部署一个多物理场仿真模型,并结合逆向设计工具,以搜索大量可能的参数。利用这些工具,希望将冷却功率密度提高两个数量级。 在接下来的演示的集成实现中,光子冷板将由更精细的瓷块组成——大约100 x 100微米。光纤发出的光将通过片上光子网络路由到这些瓦片,而不是自由空间激光器。激光激活哪些瓦片将取决于传感器测量的热点形成的位置和时间。 最终,工程师希望与CPU和GPU制造商合作,将光子冷板集成到与芯片本身相同的封装中,使关键的提取器层更靠近热点,并提高设备的冷却能力。 激光冷却芯片与数据中心 为了了解光子冷却技术对当前和未来数据中心的影响,工程师对激光冷却的热力学进行了分析,并与空气和液体冷却方法进行了比较。初步结果表明,即使是第一代激光冷却装置,其功耗也是纯空气和液体冷却系统的两倍。冷却能力的显著提高将使未来的芯片和数据中心架构发生几个关键变化。 首先,激光冷却可以消除暗硅问题。通过在热点形成时充分去除热量,光子冷却将允许芯片上更多晶体管同时运行。这意味着,芯片上的所有功能单元都可以并行运行,充分发挥现代晶体管密度的作用。 其次,激光冷却可以实现比目前更高的时钟频率。这种冷却技术可以在任何地方将芯片的温度保持在50°C以下,因为它针对的是热点。当前芯片通常会在90至120°C的温度范围内出现热点,预计情况只会变得更糟。克服这一瓶颈的能力将允许在相同的芯片上实现更高的时钟频率。这开辟了在不直接增加晶体管密度的情况下提高芯片性能的可能性,为摩尔定律的继续发展提供了急需的空间。 第三,这项技术使3D集成在热方面易于管理。因为激光辅助冷却可以精确地定位热点,可以更容易地从3D堆栈中散热,这是当今冷却技术无法做到的。在3D集成堆叠中的每一层添加光子冷板将负责冷却整个堆叠,使3D芯片设计更加简单。 第四,激光冷却比空气冷却系统更有效。从热点中去除热量的一个更诱人的结果是能够将芯片保持在均匀的温度,并大大降低对流冷却系统的整体功耗。计算表明,当与空气冷却相结合时,当前一代芯片的整体能耗可以降低50%以上,未来的芯片将实现更大的节能。 更重要的是,激光冷却可以回收比空气或液体冷却高得多的废能。在某些地点和气候条件下,可以再循环热液体或空气来加热附近的房屋或其他设施,但这些方法的回收效率有限。通过光子冷却,通过反斯托克斯荧光发射的光可以通过将光重新收集到光纤电缆中,然后通过热光伏将其转化为电能来回收,从而实现60%以上的能量回收。 通过这种全新的冷却方法,将改写芯片和数据中心的设计规则。这可能是摩尔定律得以延续的原因,也是数据中心层面的节能措施,这可能会为可预见的智能爆炸开绿灯。 光子冷却之路 这项技术在商业现实之前,仍存在一些挑战。目前,用于光子冷板的材料符合基本要求,继续开发更高效的激光冷却材料将提高系统性能,将在经济上越来越有吸引力。迄今为止,只有少数材料经过研究,并且纯度足够高,可以进行激光冷却。我们认为,在光学工程和薄膜材料加工的进步的帮助下,光子冷板的小型化将对这项技术产生类似于晶体管、太阳能电池和激光器的变革性影响。 同时,我们需要对处理器、封装和冷却系统进行共同设计,以最大限度地提高效益。这将需要传统上孤立的半导体生态系统之间的密切合作。我们正在与行业合作伙伴合作,努力促进这一共同设计过程。 从基于实验室的设置过渡到大批量商业制造要求开发高效的工艺和专用设备,全行业的采用需要光学接口、安全协议和性能指标的新标准。尽管还有很多工作要做,但我们现在没有看到大规模采用光子冷却技术的任何根本障碍。 在目前的愿景中,预计该技术将在2027年之前在高性能计算和人工智能(AI)训练集群中早日采用,每瓦冷却的性能将提高一个数量级。然后,在2028-2030年期间,希望看到主流数据中心的部署,同时IT能耗降低40%,计算能力翻一番。2030年后,预计将实现从超大规模到边缘的无处不在的部署,使新的计算范式仅受算法效率而非热约束的限制。 二十多年来,半导体行业一直在努力应对暗硅的迫在眉睫的威胁。光子冷却不仅为这一挑战提供了一种解决方案,而且从根本上重新构想了性能、计算和能源之间的关系,计算的未来是光子的、高效的、非常酷的。(编译:镨元素;来源:IEEE官网)
|