大型语言模型(LLM),例如 OpenAI 的 GPT 系列和谷歌的 BERT已成为推动许多应用的基础技术,从自动化客户服务到高级研究工具。
训练这些模型需要大量的资金投入,主要是因为需要大量的参数空间和计算能力。训练 LLM 需要使用高端 GPU 或专用 AI 硬件,这可能非常昂贵。
例如,单独训练 GPT-3 的计算成本为估计范围从约 50 万美元到高达 460 万美元不等,具体取决于培训过程中实现的具体硬件和运营效率。
本文探讨了将这些生成式 AI 模型付诸实践所涉及的多方面费用,主要关注基础设施需求、数据管理以及云计算日益重要的作用。继续阅读,全面了解当今影响大型语言模型开发的财务和后勤考虑因素。
什么是大型语言模型?
LLM 旨在模仿人类智能。它们接受大量数据集的训练,这些数据集包含来自书籍、网站和其他数字内容的文本。
它们学习语言的统计特性,从而能够根据收到的输入生成连贯且与上下文相关的文本。例如,GPT 等模型经过各种互联网文本的训练,可以生成在许多上下文和主题中模仿人类写作风格的文本。
这些模型使用注意力和上下文感知等机制来处理相互关联的文本部分。这使得模型能够根据文本其他部分提供的上下文,以不同的方式衡量输入文本不同部分的重要性。这种上下文感知对于理解和生成连贯且适合上下文的响应至关重要。
BERT就是一个例子,因为它可以通过双向阅读文本(从左到右和从右到左)来理解句子中单词的上下文,这比以前单向处理文本的模型有了很大的进步。这种能力使得 BERT 特别适合那些需要深入理解语言上下文的任务,例如回答问题或对文本进行分类。
大型语言模型的应用范围十分广泛,涉及医疗保健等各个行业,可以预测患者的结果基于历史数据,进行娱乐,为虚拟角色生成逼真的对话。
现在,我们来讨论一下使用云服务培训大型语言模型的成本。
使用云服务器训练大型语言模型的成本
由于多种原因,人工智能开发越来越多地转向云平台,包括GPU短缺,云服务是培训 LLM 最简单、最可靠的方式之一。它们的可扩展性对于 AI 培训周期不断变化的需求也非常出色。
NVIDIA 首席执行官黄仁勋在NVIDIA GTC 2024例如,使用 25,000 块基于 Ampere 的 GPU(很可能是 A100)训练 GPT-MoE-1.8T 模型需要 3 到 5 个月的时间。使用 Hopper(H100)进行同样的训练则需要大约 8,000 块 GPU,耗时 90 天。
由于需要大量资金投入,大多数用户不会从头开始训练 LLM。相反,他们会利用其他公司或组织提供的预训练模型(如 ChatGPT 或 Llama2)。
使用此方法培训 LLM 的方法有两种:
托管您自己的模型。
按代币付费
让我们看一下每种方法。
在云中托管模型
捷智算平台提供全面的套件,支持整个机器学习生命周期——从数据存储和计算到部署和管理。然而,基于云的培训的便利是有代价的。
在训练大型模型或具有数十亿个参数的模型(如 GPT-3B 或 Falcon 180B)时,成本不仅仅在于 GPU(例如 A100)。在云服务环境中,您还需要考虑:
虚拟 CPU(vCPU)管理模型训练任务的执行。
内存(RAM)用于存储计算的即时数据。
存储成本,包括保存模型的参数和训练数据。
这些组件中的每一个都会增加成本,优化资源使用以有效管理费用至关重要。云提供商通常根据计算时间、分配的内存量以及存储或传输的数据量收费,这使得训练大型 AI 模型的成本特别高。
在捷智算平台上训练大型语言模型的成本
让我们分析一下在大型模型上训练 LLM 时如何实现这一点:
在撰写本文时,A100在捷智算平台上起价为每小时 1.67 美元或每月 1,219.94 美元。如果考虑其他成本(例如所需的 vCPU 和内存),则每个费用均根据位置收费。
使用捷智算平台上 A100 GPU 的中位数价格,以下是每种所需资源的成本:
建议使用多个 GPU 以获得最佳效果。根据在 AWS 上训练相同模型的默认实例,这是在捷智算上训练 Falcon 180B 所需的建议数量:
上述配置与 AWS 上用于在同一模型上训练 LLM 的默认配置非常相似。要在捷智算上使用此配置,每月总计将超过 13,000 美元。以下是明细:
请记住,训练 LLM 可能需要数月时间,因此这笔费用会随着时间的推移而增加,特别是当训练涉及对大量数据集进行多次迭代时。CUDO Compute 定价极具竞争力,因此其他平台上的计算成本通常更高。例如,在 AWS 上使用具有类似配置的实例(ml.p4de.24xlarge)每月将花费超过 23,000 美元。
考虑到成本,一些用户可能更愿意按代币付费。具体操作如下。
按照代币(PPT)付费获取大型语言模型 (LLM) 访问权限
培训和维护 LLM 的高成本导致了按代币付费 (PPT) 模式的兴起,用于访问这些强大的语言模型。其工作原理如下:
OpenAI 和 Google AI 等公司利用通过 API 公开的大量数据集对大量 LLM 进行预训练。这样一来,开发者和企业就可以使用这些模型(例如 GPT-3 或类似模型),而无需承担训练此类模型的高昂成本和技术挑战。
用户无需承担培训和基础设施的前期成本。相反,他们只需根据 LLM 在完成文本生成、翻译或代码编写等任务时处理的标记数量(大致相当于单词或子单词)支付费用。
对于不需要大量使用 LLM 的任务,PPT 模式比内部培训更具成本效益。用户只需为实际使用的资源付费。
按代币付费的好处:
降低成本:该模型消除了对硬件、软件和训练数据的前期投资。
可扩展性:用户可以根据需要轻松地扩大或缩小 LLM 的使用量,只需为他们消耗的代币付费。
可访问性: PPT 允许更广泛的用户和小型公司访问 LLM,而无需承担高昂的内部培训费用。
为何培养大型语言模型 (LLM) 这么贵?
训练大型语言模型 (LLM) 需要巨大的计算能力。这些模型有数十亿个参数,训练它们需要在强大的硬件(如 GPU)上运行数天甚至数月的复杂算法。提供这种基础设施的云服务成本高昂,计算时间、存储空间和数据传输等因素都会增加总体费用。
按代币付费的注意事项:
定价模式:不同的提供商根据特定的 LLM 模型和使用的令牌量提供不同的定价结构。有些提供商可能会为更高的使用层级提供折扣。
控制有限:与内部训练相比,用户对预训练模型所使用的训练数据和具体配置的控制较少。
延迟:根据响应的长度以及模型在后端硬件上每秒可以生成的令牌数,用户在通过 API 与 LLM 交互时可能会遇到一些延迟。
对于大多数希望使用 LLM 而又不想承担内部培训的巨大财务负担的用户来说,按代币付费模式是一种极具吸引力的替代方案。然而,在选择此方法之前,了解定价结构、控制限制和潜在的延迟问题非常重要。
控制大型语言模型培训成本的步骤
虽然大型语言模型的成本仍然很高,但有一些策略可以优化资源利用率并降低费用:
1.实施模型优化技术:
模型架构选择:仔细选择模型架构,以平衡复杂性和所需性能。较小的模型通常需要较少的资源来训练。修剪技术可以进一步减小模型大小,而不会造成明显的准确度损失。
训练数据优化:确保您的训练数据质量高且与当前任务相关。过滤掉不相关的数据可以缩短训练时间并降低计算成本。
知识提炼:知识提炼在这个过程中,训练一个较小的“学生”模型来复制较大的“老师”模型的性能。这使得学生模型能够从老师的知识中受益,而无需从头开始训练较大的模型所需的大量计算资源。由于更紧凑,学生模型的部署效率更高,尤其是在资源受限的环境中。
混合精度训练: 混合精度训练在单个训练工作流程中使用半精度 (FP16) 和单精度 (FP32) 浮点格式。目标是加快训练速度并减少内存使用量,同时保持模型的准确性和稳定性。使用损失缩放等特殊技术来管理降低的数值精度对训练动态的影响。这可以在兼容硬件(如 NVIDIA H100 GPU)上完成。
2.考虑硬件优化:
高效的硬件利用率:监控训练期间的资源利用率。梯度累积等技术可以帮助实现更高的 GPU 利用率,从而缩短训练时间并降低成本。
选择合适的硬件:选择能够满足您特定训练需求且性价比最高的硬件。考虑使用较新的 GPU,例如 H100,其性能比前几代产品有显著提升。
云服务优化:探索不同的云服务提供商和定价模式。与预留实例相比,按需定价可能会节省成本,具体取决于您的训练计划可预测性。
我可以自己培养大型语言模型吗?
从技术上讲,您可以训练自己的大型语言模型 (LLM),但成本可能非常高。训练需要大量计算资源(强大的 GPU)和大量数据。云服务提供了这种基础设施,但成本可能高达数百万美元,具体取决于模型大小和训练时间。
3.优化训练配置:
超参数调整:尝试不同的学习率、批量大小和其他训练超参数,以找到平衡训练速度和准确性的最佳配置。
提前停止:实施技术来监控训练进度,并在达到所需的性能水平后停止训练。这可以避免不必要的资源消耗。
梯度检查点:在训练期间定期保存模型状态。这样,您可以在发生硬件故障或中断时从检查点恢复训练,从而节省时间和资源。
4.考虑使用混合专家模型:
专用子网:专家汇聚(MoE)架构将训练工作量分配给多个专门的子网络或“专家”。每个专家专注于数据的一个特定子集,与传统模型相比,这有可能缩短训练时间并提高效率。技术集。
减少计算负荷:通过将训练分配给多位专家,MoE 可以更有效地利用硬件资源,减少总体计算需求并降低成本。
复杂性和研究: MoE 正迅速成为一种流行的方法,既能保持模型大小易于管理,又能涵盖广泛的主题。实施 MoE 需要仔细的配置和专业知识。
5. 协作并利用开源工具:
利用开源工具:利用 TensorFlow 或 PyTorch 等提供高效 LLM 训练功能的开源框架。
与研究机构合作:与可能获得 LLM 培训补贴计算资源的研究机构合作。
数据采集也可以增加 LLM 的培训,让我们看看数据要求及其相关成本。
数据要求和成本
数据是 LLM 的命脉。数据质量、数量和多样性直接影响模型的有效性和准确性。收集、清理和管理这些数据需要大量成本。数据需要足够庞大和多样化,才能训练出一个没有偏见、可以在不同环境中推广的模型。数据集创建过程涉及大量劳动力,包括人工任务,例如监督学习场景的标记,这增加了成本。
然而,这些数据并非免费提供,有效管理这些数据会大大增加总体成本。以下是法学硕士数据管理的主要财务方面的细目:
数据获取:获取 LLM 培训数据的主要方式有两种:购买现有数据集或授权访问它们。知名研究机构和私营公司通常会整理和出售专门用于训练 AI 模型的文本和代码数据集。这些数据集可能非常昂贵,具体取决于其大小、领域特异性和质量。
数据存储:存储海量数据集需要大量存储容量。传统的本地存储解决方案维护和扩展成本高昂。云存储服务提供了更灵活且更具成本效益的替代方案,但持续的存储费用会随着时间的推移而累积,尤其是对于 TB 或 PB 级的数据集。
数据预处理:原始数据很少以其原始形式用于 LLM 培训。它通常需要大量的清理、标记和格式化。这种预处理可能涉及:
清理:删除不相关的信息(如代码注释、HTML 标签或重复条目)可能是一项计算量很大的任务,尤其是对于大型数据集而言。
标记:根据训练目标,可能需要用特定类别或信息标记数据。这可能是一个需要人力的劳动密集型过程,也可以使用专门的工具自动完成,但会产生软件许可成本。
格式化:确保数据具有适合 LLM 培训的一致格式可能涉及额外的处理和潜在的定制软件开发。
此外,负责任地处理此类数据以遵守隐私法和道德标准会带来额外的复杂性和费用。数据匿名化、安全存储以及遵守法规可能会增加任何 AI 项目的管理成本。
优化这些数据管理流程对于成本控制至关重要。数据选择(仅使用相关子集)和迁移学习(利用预训练模型)等技术可以帮助减少对大量昂贵数据集的依赖。
通过实施这些策略,研究人员和开发人员可以显著降低 LLM 培训成本。精心优化模型、利用高效的硬件和云服务以及采用节省成本的培训配置对于管理 LLM 开发的财务负担都至关重要。