训练大型语言模型：模型驱动内容，内容驱动模型 - 办公电子（技术聚焦）－全球企业门户

加入收藏

免费注册

今天是：2025年8月6日星期三您现在位于：首页 → 技术 → 办公电子（技术聚焦）

训练大型语言模型：模型驱动内容，内容驱动模型

2022/12/2 12:16:29

训练大型语言模型和推荐系统的成本已经变得越来越清楚，这可以说是推动人工智能（AI）进入企业的两个最重要的工作负载。但由于机器学习系统制造商Cerebras Systems和云计算合作伙伴Cirrascale提供了一种新的系统租赁服务来训练GPT模型，我们现在有了一些实际的定价，可以显示在什么规模下运行什么GPT模型的成本。

这是我们第一次从剩余的人工智能培训新贵中看到这样的公开数据，其中包括Cerebras，SambaNova Systems，Graphcore和英特尔的Habana Labs也许我们对后者很慷慨，英特尔希望削减产品线和人员，因为它寻求从现在到2025年期间从其账面上减少80亿至100亿美元的成本。

Cerebras和Cirrascale透露的在CS-2超级计算机上进行特定GPT AI训练的定价信息是与Jasper的合作伙伴关系一起宣布的，Jasper是众多AI应用程序提供商之一，他们正在帮助各种行业和规模的企业找出如何部署大型语言模型来驱动他们的应用程序。就像地球上的其他人一样，Jasper一直在Nvidia GPUs上训练其AI模型，它正在寻找一种更简单、更快速的方法来训练模型，这就是它谋生的方式。

据该公司的联合创始人兼首席执行官Dave Rogenmoser称，Jasper确实以此为生。该公司拥有近10万名付费用户，他们使用Jasper系统做各种事情，从写博客到创建内容营销再到生成技术手册。这些大型语言模型还不能生成完美的内容，但是如果输入正确，它们可以在相当短的时间内让内容达到需要的70%左右，这大大加快了许多公司的内容创建过程。(信不信由你，大多数人不喜欢写作，他们也常常写得不是很快。)

总部位于奥斯汀的Jasper成立于2021年1月，在2021年6月筹集了600万美元的种子资金，并在Insight Partners推动的1.25亿美元首轮融资中获得了最高估值，该公司的估值为15亿美元。它是许多基于LLM提供服务的初创公司之一，现有的应用软件提供商也在想办法以各种方式利用LLM来扩充他们的模型。

“我们认为大型语言模型不够高端，我们刚刚开始看到它们的影响，”Cerebras的联合创始人兼首席执行官安Andrew Feldman解释道，该公司是晶圆级处理的先驱，也是AI训练硬件的新贵。“在生态系统的这三个层次中，无论是硬件层、基础设施层和基础模型，还是应用层，都会有赢家和新的出现。明年，你将看到大型语言模型在经济各个领域的广泛崛起和影响。”

Cerebras一直以其“Andromeda”AI超级计算机做文章，这是一组16个CS-2晶圆级系统捆绑在一起的单个系统，具有超过1350万个核心，在16位浮点精度下提供120 petaflops的性能，密集矩阵是稀疏矩阵（sparse matrice）的8倍。该系统的成本不到3000万美元，即使对于像Jasper这样的硅谷独角兽来说，这也是一大笔钱。

正如任何工作负载的情况一样，在一定的规模和利用率水平下，购买CS-2群集将比租赁一个更有经济意义，我们不会惊讶地看到像Jasper这样的公司为此付出资金，原因很快就会显而易见。

模型驱动内容，内容驱动模型

Jasper的业务有两个驱动因素，这是它远离分布式GPU AI训练的耦合模型并行和数据并行世界的原因，当涉及到为跨越数千或数万个GPU运行的AI训练分割数据和任务时，会有一些痛苦的过程，并进入仅支持数据并行的大脑的可爱怀抱。

“首先，企业想要个性化的模型，而且非常想要，”Rogenmoser解释道。“他们希望用自己的语言对他们进行培训，希望他们接受知识库和产品目录方面的培训。他们希望他们接受品牌声音的培训——他们希望他们真正成为品牌的延伸。他们希望他们的销售团队以同样的方式说话，并立即跟上新发布的产品信息，他们希望他们都以一致的方式说话。当人们进入公司时，他们希望他们立即跟上速度，公司里的每个人都用某些词说话，而不用某些词。他们希望这种情况会越来越好。这是第二部分——他们希望这些模型变得更好，并希望它们根据过去的使用数据和性能进行自我优化。如果他们写了一个脸书广告标题，并最终成为赢家，他们希望模型能够了解正在发生的事情，并能够围绕这些事情进行自我优化。”

Cerebras产品副总裁Andy Hock告诉Next Platform，情况甚至更复杂。

“我们在Jasper以外的市场上观察到的一个更广泛的现象是，许多公司希望能够快速研究和开发这些用于特定商业应用的大规模模型，”Hock说。“但是，传统云中存在的基础设施并不能让这种大规模的研发变得容易。所以能够问这样的问题——我应该从头开始训练吗？还是应该微调一个开源的公共检查点？最好的答案是什么？如何最有效地利用计算来降低商品成本，从而为我的客户提供最佳服务？在许多情况下，使用传统基础架构来询问这些问题不仅成本高昂，而且不切实际。”

这就是为什么Cerebras和Cirrascale将Cerebras AI模型工作室租赁模型整合在一起，该模型基于CS-2 iron集群，在两家公司拥有的基础设施上运行。也没有说他们部署了多少CS-2铁，但从理论上讲，Cerebras架构允许它扩展到相当大的规模，正如我们过去在这里和那里讨论过的那样，到目前为止，单个系统映像中的192个CS-2节点总共有1.63亿个内核。

在一个主要的云上争夺GPU的可用性是一回事，将模型和数据分解到数百、数千或数万个GPU上运行是另一回事。付钱是另一回事。

因此，来自Cerebras和Cirrascale的AI模型工作室的中心主题是可预测性，而不仅仅是模糊地声称AI模型可以比在亚马逊网络服务上使用GPU快8倍，而且价格只有一半。

“我们有AI研究实验室和一些金融机构作为客户，他们都想训练自己的模型，并使用自己的数据来提高这些模型的准确性，”Cirrascale联合创始人兼首席执行官PJ Go说。“他们希望以合理的价格快速完成这项工作。或许最重要的是，他们想要一个可预测的价格。他们不想给云服务提供商开一张无止境的空白支票来训练一个模型。”

因此，在一个完美的例子中，计算能力就是金钱，这里是当从头开始训练GPT-3运行时，在四节点CS-2集群上的AI Model Studio服务的定价:

“Chinchilla Point”是数据层，用记号来度量，它是有效训练模型和收敛到正确答案所需要的。(有了大的语言模型，看了或者听了就知道了。)通过一个模型推动太多的数据会产生收益递减，有时你可能会走得太远，就像如果你太激进，你可能会过度拟合一条统计曲线。(你看到的时候也知道。)

模型越大，训练时间就越长

显然，模型在参数方面的大小和令牌的数量成比例，一般来说，我们可以说，模型越大，在设定的配置上训练所需的时间就越长。同样，这是有道理的，因为随着AI训练努力的扩大，你只是加载和处理越来越多的数据，以获得越来越好的结果。

你知道我们，我们不能留下一个像Cerebras和Cirrascale单独创建的表，所以我们对每个参数的成本以及每天处理的令牌和每天花费的美元做了一点计算。我们还尝试计算了三种最大型号的价格和性能——GPT NeoX、GPT 70B和GPT 175B——它们运行在仙女座菌株级机器上，具有16个CS-2节点，而不是原始表格中显示的4个CS-2节点。

我们放入的这些跳跃因子需要解释。最终，我们都想知道训练的天数和价格是如何随着每一个GPT模型的扩展而上涨的，然后我们想知道我们如何扩展铁，这样我们就可以加快训练的时间。跳跃因子计算从一个GPT模型到下一个模型的增量，我们跳过T-5 11B模型expect，因为它与GPT-3 6.7B的运行相比。

在四节点CS-2集群上的GPT-3参数范围的低端，增加一些参数会引入比您预期的长得多的训练时间。从13亿个参数移动到60亿个参数，数据增加了4.6倍，但训练时间增加了20倍。从67亿到130亿个参数又增加了1.9倍，但训练时间增加了3.5倍。在GPT NeoX运行中，参数增加了1.5倍，但训练时间仅增加了1.2倍。因此，随着模型大小的增加，这并不是精确的线性关系。

正如我们在本月早些时候讨论的那样，CS-2机器几乎是线性扩展的。4个节点几乎是两个节点的两倍，8个节点几乎是4个节点的两倍，16个节点几乎是8个节点的两倍。当我们问价格是否也线性增长时，Feldman说这似乎不公平，这对NUMA架构来说是正确的，随着规模的扩大，它们会变得更贵。Feldman建议“4倍的性能5倍的价格”是一个很好的方式来思考如何比较16个CS-2节点与4个节点。

我们不知道该算法是否会缩减到两个或一个节点设置，从而在缩减CS-2集群规模时削减20%的成本。但很可能会。但话说回来，当你可以在更短的时间内使用更大的系统时，你为什么要尝试在更小的系统上训练更长的时间呢？只有在预算紧张、时间不重要的情况下，你才会这么做。

因此，我们对上述成本的猜测。显然，在一个四节点集群上，随着模型变得越来越大，处理每组参数的成本也会增加。GPT-3XL型号的每100万个参数只有1.92美元，但按照Cerebras和Cirrascale的定价，GPT 70B型号的价格是35.71美元。每100万个参数的价格上涨了18.6倍，因为参数数量增加了53.8倍。

我们的猜测是，在一个四节点CS-2集群上运行一个5000亿参数的GPT模型需要大约一年的时间，而在一个16节点集群上，您可能一年就能处理2万亿个参数。或者，根据我们的估计，这将让你从零开始训练GPT 175B超过13次——每个月调用一次，并有备用的。这就是你花3000万美元拥有自己的仙女座CS-2超级计算机的结果。但是，如果我们对AI模型工作室服务规模的定价和性能的估计是正确的，那么租用13次GPT 175B训练可能会花费你1.42亿美元。

因此，一些人会租用来训练，然后当他们需要更多的训练和更大的模型时，经济状况会迫使他们购买。查询进一步信息，请访问官方网站