 【产通社,1月22日讯】d-Matrix公司官网消息,其联合创始人苏迪普·博贾和他的团队讨论了一种针对生成推理优化的grounds-up联合设计的硬件和软件架构。 基于转换器的大型语言模型(LLM)已经成为现代自然语言处理的基础架构。今天,在最先进的系统上部署LLM推理的高昂成本限制了生成式人工智能的大规模部署。此外,低延迟LLM推理在今天要么是不可能的,要么是昂贵的,它可以开启新的用例,如思维链推理、结对编程、代理工作流等。 为了降低服务成本,同时提供可接受的延迟,行业已经转向更小的模型、稀疏模型(如混合专家)和替代注意力机制(如组查询注意力(GQA))。然而,昂贵的部署成本和高推理延迟的关键问题仍然存在。 在加州大学伯克利分校机器学习硬件课程的客座演讲中,d-Matrix的联合创始人Bhoja和他的团队讨论了一种针对生成推理优化的grounds-up联合设计的硬件和软件架构。Bhoja介绍了LLM推理工作负载的关键特征以及d-Matrix的一种新方法,解释了他的团队如何设计一种模块化的基于小芯片的CGRA式架构,这种架构是为LLM推理量身定制的,并介绍了如何将架构从小芯片横向扩展到多个节点。 除了硬件考虑之外,该团队还关注现代系统的相关软件设计,包括集体通信算法和分布式推理服务堆栈,重点关注它们如何与模型架构创新和全堆栈技术进行互操作。通过这次检查,d-Matrix团队展示了超低延迟、高吞吐量的LLM推理。 查询进一步信息,请访问官方网站 http://www.d-matrix.ai/democratizing-ai-through-hardware-software-codesign-for-llm-inference。(镨元素,产通数造) (完)
|