加入收藏
 免费注册
 用户登陆
首页 展示 供求 职场 技术 智造 职业 活动 视点 品牌 镨社区
今天是:2025年5月2日 星期五   您现在位于: 首页 →  产通直播 → 半导体器件(企业动态)
d-Matrix提出针对生成推理优化的grounds-up硬件和软件架构
2025/1/22 11:40:03     

按此在新窗口浏览图片

【产通社,1月22日讯】d-Matrix公司官网消息,其联合创始人苏迪普·博贾和他的团队讨论了一种针对生成推理优化的grounds-up联合设计的硬件和软件架构。

基于转换器的大型语言模型(LLM)已经成为现代自然语言处理的基础架构。今天,在最先进的系统上部署LLM推理的高昂成本限制了生成式人工智能的大规模部署。此外,低延迟LLM推理在今天要么是不可能的,要么是昂贵的,它可以开启新的用例,如思维链推理、结对编程、代理工作流等。

为了降低服务成本,同时提供可接受的延迟,行业已经转向更小的模型、稀疏模型(如混合专家)和替代注意力机制(如组查询注意力(GQA))。然而,昂贵的部署成本和高推理延迟的关键问题仍然存在。

在加州大学伯克利分校机器学习硬件课程的客座演讲中,d-Matrix的联合创始人Bhoja和他的团队讨论了一种针对生成推理优化的grounds-up联合设计的硬件和软件架构。Bhoja介绍了LLM推理工作负载的关键特征以及d-Matrix的一种新方法,解释了他的团队如何设计一种模块化的基于小芯片的CGRA式架构,这种架构是为LLM推理量身定制的,并介绍了如何将架构从小芯片横向扩展到多个节点。

除了硬件考虑之外,该团队还关注现代系统的相关软件设计,包括集体通信算法和分布式推理服务堆栈,重点关注它们如何与模型架构创新和全堆栈技术进行互操作。通过这次检查,d-Matrix团队展示了超低延迟、高吞吐量的LLM推理。

查询进一步信息,请访问官方网站http://www.d-matrix.ai/democratizing-ai-through-hardware-software-codesign-for-llm-inference。(镨元素,产通数造)    (完)
→ 『关闭窗口』
 365pr_net
 [ → 我要发表 ]
上篇文章:Groq和Aramco Digital在沙特阿拉伯建立世界…
下篇文章:深圳欣锐科技取得转换器组件及燃料电池系统发明专利…
  → 评论内容 (点击查看)
您是否还没有 注册 或还没有 登陆 本站?!
 分类浏览
官网评测>| 官网  社区  APP 
STEAM>| 学术科研  产品艺术  技术规范  前沿学者 
半导体器件>| 产品通报  企业动态  VIP追踪 
电子元件>| 产品通报  企业动态  VIP追踪 
消费电子>| 产品通报  企业动态  VIP追踪 
商业设备>| 产品通报  企业动态  VIP追踪 
电机电气>| 产品通报  企业动态  VIP追踪 
电子材料>| 产品通报  企业动态  VIP追踪 
电子测量>| 产品通报  企业动态  VIP追踪 
电子制造>| 产品通报  企业动态  VIP追踪 
应用案例>| 家庭电子  移动电子  办公电子  通信网络  交通工具  工业电子  安全电子  医疗电子  智能电网  固态照明 
工业控制>| 产品通报  企业动态  VIP追踪 
通信电子>| 产品通报  企业动态  VIP追踪 
交通工具>| 产品通报  企业动态  VIP追踪 
基础工业>| 产品通报  企业动态  VIP追踪 
农业科技>| 产品通报  企业动态  专家追踪 
信息服务>| 企业动态 
光电子>| 企业动态 
关于我们 ┋ 免责声明 ┋ 产品与服务 ┋ 联系我们 ┋ About 365PR ┋ Join 365PR
Copyright @ 2005-2008 365pr.net Ltd. All Rights Reserved. 深圳市产通互联网有限公司 版权所有
E-mail:postmaster@365pr.net 不良信息举报 备案号:粤ICP备06070889号