 【产通社,2月8日讯】中科寒武纪科技股份有限公司(cambricon;股票代码:688256)官网消息,其思元290智能芯片及加速卡、玄思1000智能加速器量产落地后首次正式亮相,标志着寒武纪已建立“云边端一体、软硬件协同、训练推理融合”的新生态。 产品特点 思元290智能芯片是寒武纪的首颗训练芯片,采用台积电7nm先进制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,全面支持AI训练、推理或混合型人工智能计算加速任务。 MLU290-M5智能加速卡搭载思元290智能芯片,采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link多芯互联技术,在350W的最大散热功耗下提供AI算力高达1024 TOPS(INT4)。 玄思1000智能加速器,在2U机箱内集成4颗思元290智能芯片,高速本地闪存、Mellanox InfiniBand网络,对外提供高速MLU-Link接口,打破智能芯片、服务器、POD与集群的传统数据中心横向扩展架构,实现AI算力在计算中心级纵向扩展,是AI算力的高集成度平台。 (1)思元290采用MLUv02扩展架构 MLUv02架构为寒武纪MLU200全产品线共享,满足云、边、端三个场景的算力需求。云端训练对AI算力的要求更为苛刻,因此寒武纪对思元290的MLUv02架构进行了多项扩展,包括业内领先的MLU-Link多芯互联技术、高带宽HBM2内存、高速片上总线NOC以及新一代PCIe 4.0接口。相比寒武纪思元270芯片,思元290芯片实现峰值算力提升4倍、内存带宽提高12倍、芯片间通讯带宽提高19倍。新架构结合7nm制程,思元290可提供更优性能功耗比,以及多MLU系统的扩展能力。 (2)寒武纪MLU-Link多芯互联技术 近年来,AI算法模型的复杂程度高速增长,对算力和训练速度提出了更高的要求。为了构建更强大的计算平台,多芯片间的互联技术已成为市场刚需。 寒武纪推出MLU-Link多芯互联技术,并首次搭载于寒武纪思元290芯片,每颗思元290的多芯互联总带宽高达600GB/s。MLU-Link具备丰富的互联特性,突破PCIe带宽和互联的瓶颈,相比思元270芯片通过PCIe并行的通讯方式,带宽提高19倍。MLU-Link多芯互联技术支持多颗思元芯片无缝互联,支持跨系统互联,将纵向扩展能力整合到整个人工智能计算中心(AIDC),可以端到端加速大型AI模型训练。 思元290采用MLU-Link多芯互联技术进行互联,带宽、灵活性全面优于PCIe 3.0。   (3)寒武纪vMLU解决方案 不同场景下的AI训练对计算和存储的要求千差万别,如何提供更灵活也更稳定的服务,但同时让算力得到充分地利用,是AIDC面临的持续挑战。寒武纪虚拟化技术vMLU,支持在思元290上实现4个相互隔离的AI计算实例,每个实例独占计算、内存和编解码资源。实例之间的硬件资源互不干扰,即使在虚拟化环境下仍可保持90%以上的极高效率,帮助客户充分利用硬件资源。 vMLU还可以帮助思元290芯片提供更好的灵活性。通过热迁移技术,云管理员可将正在运行的AI负载及其应用程序移动到另外一台主机上,从而平衡整个AIDC的负载,并实现更好的容灾功能。 (4)寒武纪首款AI训练智能加速卡MLU290-M5 寒武纪MLU290-M5智能加速卡搭载了思元290智能芯片,采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s内存带宽以及全新MLU-Link多芯互联技术,在350W的最大散热功耗下提供AI算力高达1024 TOPS (INT4)。 (5)寒武纪首款智能加速器玄思1000 寒武纪首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超过4100万亿次每秒(4.1 PetaOPS INT4),一台玄思1000计算单元就足以替代一个小型传统超级计算中心。 玄思1000内置高带宽低延时的MLU-Link多芯互联技术,实现内部4颗思元290进行高速互联,同时打破服务器、紧耦合微集群(POD)与集群的传统数据中心横向扩展架构,将AIDC构建为节点、POD乃至超大规模混合扩展架构(Hybrid Scale-out),实现AI算力计算中心级纵向扩展,满足高性能、高扩展性、灵活性、高鲁棒性的要求。 供货与报价 寒武纪思元290芯片及加速卡已与部分硬件合作伙伴完成适配,并已实现规模化出货。查询进一步信息,请访问官方网 http://www.cambricon.com。(张怡,产通发布) (完)
|