微流道（microfluidic channels）可能是冷却AI芯片的答案 - 创新科技（人工智能）－全球企业门户

【产通社，11月20日讯】近年来，数据中心机架密度迅速上升。运营商正在将更多的计算能力塞进每个服务器机架中，以满足人工智能（AI）和其他高性能计算应用的需求。这意味着每个机架需要更多千瓦的能量，并最终产生更多的热量。不过，冷却基础设施一直难以跟上步伐。
戴尔技术公司全球行业首席技术官David Holmes表示：“机架密度已经从八年前的平均每机架6千瓦，发展到现在的270千瓦。明年，480千瓦将准备就绪，兆瓦机架将在两年内与我们一起使用。”
瑞士公司Corintis正在开发一种名为微流道（microfluidic channels）的技术，在这种技术中，水或其他冷却液被直接引导到芯片的特定部分，以防止过热。在最近与微软的一项测试中，运行该公司Teams视频会议软件的服务器记录的散热率是其他现有冷却方法的三倍。与传统的空气冷却相比，微流体将芯片温度降低了80%以上。

利用微流道技术提升芯片性能

较低的芯片温度使芯片能够更快地执行指令，从而提高其性能。在较低温度下运行的芯片也更节能，故障率更低。此外，可以提高用于冷却的空气温度，通过减少对冷却器的需求和降低液体消耗，使数据中心更节能。
通过将液体流定向到芯片上产生最多热量的位置，可以大大降低冷却芯片所需的水量。Van Erp指出，目前的行业标准约为每千瓦功率每分钟1.5升。由于芯片的功率接近10千瓦，这很快意味着每分钟冷却一个芯片需要15升——这一数字将引起社区的愤怒，他们担心为他们的地区计划的任何超大规模的“人工智能工厂”的影响，这些工厂可能包含100万个或更多的GPU。
Corintis的联合创始人兼首席执行官Remco van Erp表示：“我们需要优化芯片特定的液体冷却，以确保每一滴液体都流向正确的位置。”
Corintis开发的模拟和优化软件用于设计冷板上的微观小通道网络。就像身体循环系统中的动脉、静脉和毛细血管一样，每种芯片的理想冷板设计都是由形状精确的通道组成的复杂网络。
Corintis已经扩大了其增材制造能力，能够大规模生产通道窄如人类头发（约70微米）的铜部件。其冷板技术与当今的液体冷却系统兼容。该公司认为，这种方法可以将冷板结果提高至少25%。通过与芯片制造商直接合作，在硅本身中开辟通道，Corintis认为最终可以实现十倍的冷却效果。

推进AI芯片的液体冷却

液体冷却远非新鲜事。例如，半个多世纪前，IBM 360大型机是用水冷却的。现代液体冷却在很大程度上是浸没系统和直接芯片系统之间的竞争，在浸没系统中，机架和有时整排设备都浸没在冷却液中，在直接芯片系统中，冷却液被引导到放置在芯片上的冷板上。
浸没式冷却尚未准备好进入黄金时段。虽然直接芯片冷却被广泛部署以保持GPU的冷却，但它只冷却芯片表面周围。
van Erp说：“当今形式的液体冷却是一种一刀切的解决方案，依赖于不适合芯片的简单设计，这阻碍了良好的热传递”。“每个芯片的最佳设计是一个由精确形状的微尺度通道组成的复杂网络，这些通道与芯片相适应，将冷却剂引导到最关键的区域。”
Corintis已经在与芯片制造商合作改进设计。芯片制造商正在使用该公司的热仿真平台以毫米级分辨率对硅测试芯片的散热进行编程，然后在安装所选的冷却方法后感测芯片上的温度。换句话说，Corintis充当芯片设计和冷却系统设计之间的桥梁，使芯片设计人员能够为AI应用构建具有卓越热性能的未来芯片。
下一阶段是从冷却通道和芯片设计之间的桥梁转变为这两个过程的统一。“现代芯片和冷却目前是两个独立的元件，两者之间的界面是传热的主要瓶颈之一，”van Erp说。
为了将冷却性能提高十倍，Corintis押注于一个未来，即冷却作为芯片本身的一个组成部分紧密耦合——微流体冷却通道将直接在微处理器封装内蚀刻，而不是在周边的冷板上蚀刻。
Corintis已经生产了10000多块铜冷板，并正在提高其制造能力，到2026年底达到100万块冷板。它还在瑞士开发了一条原型生产线，在那里它正在开发直接在芯片内而不是在冷板上的冷却通道。这只计划用于小批量演示基本概念，然后将这些概念交给芯片制造商和冷板制造商。
Corintis在微软Teams测试发布后立即宣布了这些扩张计划。此外，该公司还将在美国开设办事处，为美国客户提供服务，并在德国慕尼黑开设工程办事处。此外，该公司还宣布完成由BlueYard Capital和其他投资者牵头的2400万美元a轮融资。（编译：镨元素；剪报来源：IEEE）