d-Matrix提出针对生成推理优化的grounds-up硬件和软件架构 - 半导体器件（企业动态）－全球企业门户

【产通社，1月22日讯】d-Matrix公司官网消息，其联合创始人苏迪普·博贾和他的团队讨论了一种针对生成推理优化的grounds-up联合设计的硬件和软件架构。

基于转换器的大型语言模型(LLM)已经成为现代自然语言处理的基础架构。今天，在最先进的系统上部署LLM推理的高昂成本限制了生成式人工智能的大规模部署。此外，低延迟LLM推理在今天要么是不可能的，要么是昂贵的，它可以开启新的用例，如思维链推理、结对编程、代理工作流等。

为了降低服务成本，同时提供可接受的延迟，行业已经转向更小的模型、稀疏模型(如混合专家)和替代注意力机制(如组查询注意力(GQA))。然而，昂贵的部署成本和高推理延迟的关键问题仍然存在。

在加州大学伯克利分校机器学习硬件课程的客座演讲中，d-Matrix的联合创始人Bhoja和他的团队讨论了一种针对生成推理优化的grounds-up联合设计的硬件和软件架构。Bhoja介绍了LLM推理工作负载的关键特征以及d-Matrix的一种新方法，解释了他的团队如何设计一种模块化的基于小芯片的CGRA式架构，这种架构是为LLM推理量身定制的，并介绍了如何将架构从小芯片横向扩展到多个节点。

除了硬件考虑之外，该团队还关注现代系统的相关软件设计，包括集体通信算法和分布式推理服务堆栈，重点关注它们如何与模型架构创新和全堆栈技术进行互操作。通过这次检查，d-Matrix团队展示了超低延迟、高吞吐量的LLM推理。

查询进一步信息，请访问官方网站

http://www.d-matrix.ai/democratizing-ai-through-hardware-software-codesign-for-llm-inference。（镨元素，产通数造）（完）