GPU 与 LPU：哪个更适合 AI深度学习工作负载？

发布时间： 2024-08-01 14:07

将生成式 AI 模型扩展到数十亿或数万亿个参数需要超出传统 CPU 能力的专用硬件。图形处理单元（GPU）仍然是人工智能加速的主导解决方案，一个新的竞争者已经出现：语言处理单元（逻辑处理单元）。

GPU因其并行处理能力而闻名，而 LPU（例如 Groq 开发的 LPU）则旨在解决自然语言处理 (NLP) 任务的顺序性，这是构建 AI 应用程序的基本组成部分。在这篇文章中，我们将考虑深度学习工作负载中的 GPU 和 LPU 之间的主要区别，并研究它们的架构、优势和性能。

GPU 的架构

我们之前讨论过特定 GPU 的架构，例如NVIDIA 系列，这将是对 GPU 构成的更一般的概述。

GPU 的核心是计算单元（也称为执行单元），其中包含多个处理单元（在 NVIDIA 术语中称为流处理器或 CUDA 核心），以及共享内存和控制逻辑。在某些架构中，尤其是那些为图形渲染而设计的架构中，还可能存在其他组件，例如光栅引擎和纹理处理集群 (TPC)。

A计算单元由多个较小的处理单元组成，可以同时管理和执行多个线程。它包括自己的寄存器、共享内存和调度单元。每个计算单元并行操作多个处理单元，协调它们的工作以高效处理复杂任务，每个处理单元执行基本算术和逻辑运算的单独指令。

处理单元和指令集架构 (ISA)

计算单元中的每个处理单元都旨在执行由 GPU 定义的一组特定指令指令集架构ISA 决定了处理单元可以执行的操作类型（算术、逻辑等）以及这些指令的格式和编码。

ISA 是软件之间的接口（例如，通用计算架构或者OpenCLGPU 包括代码和硬件（处理单元）。当为 GPU 编译或解释程序时，它会被翻译成一系列符合 GPU 特定 ISA 的指令。然后，处理单元执行这些指令，最终执行所需的计算。

不同的 GPU 架构可能具有不同的 ISA，这会影响其在特定工作负载下的性能和功能。某些 GPU 为特定任务（例如图形渲染或机器学习）提供专用 ISA，以优化这些用例的性能。

虽然处理单元可以处理通用计算，但许多 GPU 还包含专门的单元来进一步加速特定的工作负载。例如，

双精度单位（DPU）处理科学计算应用的高精度浮点计算。同时，张量核心（NVIDIA）或专为加速矩阵乘法设计的矩阵核心（AMD）现在是计算单元的组成部分。

GPU 使用多层内存层次平衡速度和容量。最靠近处理核心的是小型片上寄存器，用于临时存储经常访问的数据和指令。这种寄存器文件提供最快的访问时间，但容量有限。

层次结构中的下一个是共享内存，这是一种快速、低延迟的内存空间，可在计算单元集群内的处理单元之间共享。共享内存有助于在计算过程中进行数据交换，从而提高受益于线程块内数据重用的任务的性能。

全局内存作为主内存池适用于片上存储器无法容纳的较大数据集和程序指令。全局存储器比寄存器或共享存储器提供更大的容量，但访问时间较慢。

GPU 内的通信网络

处理单元、内存和其他组件之间的高效通信对于实现最佳 GPU 性能至关重要。为实现此目的，GPU 采用了各种互连技术和拓扑。以下是它们的分类及其工作原理：

1、高带宽互连：

基于总线的互连：基于总线的互连是许多 GPU 中常用的方法，它为组件之间的数据传输提供了共享路径。虽然实现起来比较简单，但在流量大的情况下，由于多个组件争夺总线访问权限，因此它们可能会成为瓶颈。
片上网络 (NoC) 互连：一些高性能 GPU 采用NoC 互连，提供更具可扩展性和灵活性的解决方案。NoC 由多个互连的路由器组成，这些路由器在不同组件之间路由数据包，与传统的基于总线的系统相比，可提供更高的带宽和更低的延迟。
点对点 (P2P) 互连： P2P 互连支持特定组件（例如处理单元和内存组）之间的直接通信。P2P 链路无需共享公共总线，因此可以显著减少关键数据交换的延迟。

2、互连拓扑：

交叉开关：此拓扑允许任何计算单元与任何内存模块通信。它提供了灵活性，但当多个计算单元需要同时访问同一个内存模块时，可能会成为瓶颈。
网状网络：网状网络拓扑结构中，每个计算单元都以网格状结构与其相邻单元相连。这减少了争用并实现了更高效的数据传输，尤其适用于本地化通信模式。
环形总线：在此，计算单元和内存模块以循环方式连接。这样数据就可以单向流动，与总线相比，可以减少争用。虽然广播效率不如其他拓扑，但它仍然可以使某些通信模式受益。

除了片上互连之外，GPU 还必须与主机系统（CPU 和主内存）通信。这通常通过 PCI Express (PCIe) 总线完成，这是一种高速接口，允许 GPU 与系统其余部分之间传输数据。

通过结合不同的互连技术和拓扑，GPU 可以优化各个组件之间的数据流和通信，从而实现跨各种工作负载的高性能。

为了最大限度地利用其处理资源，GPU 使用了两种关键技术：多线程和流水线。GPU 通常采用同步多线程（SMT），允许单个计算单元同时执行来自相同或不同程序的多个线程，从而能够更好地利用资源，即使任务具有一些固有的串行方面。

GPU 支持两种形式的并行性：线程级并行（TLP）和数据级并行（DLP）。TLP 涉及同时执行多个线程，通常使用单指令，多线程（SIMT）模型。而 DLP 则使用矢量指令在单个线程内处理多个数据元素。

流水线技术通过将复杂任务分解为更小的阶段来进一步提高效率。然后可以在计算单元内的不同处理单元上同时处理这些阶段，从而减少总体延迟。GPU 通常采用深度流水线架构，其中指令被分解为许多小阶段。流水线技术不仅在处理单元本身内实现，而且在内存访问和互连中实现。

众多流处理器、用于特定工作负载的专用单元、多层内存层次以及高效互连的组合，使得 GPU 能够同时处理大量数据。

要将最新的 NVIDIA GPU 用于您的 AI 和 HPC 项目，联系我们在捷智算平台。我们有NVIDIA H100和别的预留 GPU和需求。联系现在就开始！

LPU的架构

LPU 是市场上的新产品，目前知名度较低，但正如 Groq 所展示的那样，它们非常强大。LPU 旨在满足自然语言处理 (NLP) 工作负载的独特计算需求。我们将重点讨论 Groq 的 LPU。

Groq LPU包含一个张量流处理器（TSP）架构。此设计针对顺序处理进行了优化，与 NLP 工作负载的性质完美契合。与可能面临困境的 GPU 架构。由于NLP任务的内存访问模式不规则，TSP擅长处理数据的顺序流，从而能够更快、更高效地处理语言模型。

来源：Groq LPU 底层架构

LPU 的架构还解决了大规模 NLP 模型中经常遇到的两个关键瓶颈：计算密度和内存带宽。通过精心管理计算资源并优化内存访问模式，LPU 可确保有效平衡处理能力和数据可用性，从而显著提高 NLP 任务的性能。

LPU 尤其擅长推理任务，其中使用预先训练的语言模型来分析和生成文本。其高效的数据处理机制和

低延迟设计使其成为聊天机器人、虚拟助手和语言翻译服务等实时应用的理想选择。LPU 集成了专用硬件来加速注意力机制等关键操作，这对于理解文本数据中的上下文和关系至关重要。

软件堆栈：

为了弥补 LPU 专用硬件和 NLP 软件之间的差距，Groq 提供了全面的软件堆栈。专用编译器优化和翻译 NLP 模型和代码在 LPU 架构上高效运行。该编译器支持流行的 NLP 框架，如 TensorFlow 和 PyTorch，使开发人员能够利用他们现有的工作流程和专业知识而无需进行重大修改。

LPU 的运行时环境管理执行期间的内存分配、线程调度和资源利用率。它还为开发人员提供应用程序编程接口 (API) 来与 LPU 硬件交互，从而方便定制和集成到各种 NLP 应用程序中。

内存层次结构：

高效的内存管理对于高性能 NLP 处理至关重要。Groq LPU 采用多层内存层次结构，以确保数据在计算的各个阶段都随时可用。最靠近处理单元的是标量和矢量寄存器，它们为频繁访问的数据（如中间结果和模型参数）提供快速的片上存储。

LPU 使用更大、更慢的二级 (L2) 缓存来存储不常访问的数据。此缓存是寄存器和主内存之间的中介，减少了从较慢的主内存中获取数据的需要。

来源：Groq LPU 底层架构

大容量数据的主要存储是主存储器，用于存储预训练模型以及输入和输出数据。在主存储器中，分配了专用的模型存储，以确保高效访问预训练模型的参数，这些参数可能非常大。

此外，LPU 还集成了高带宽片上 SRAM，减少了对较慢外部存储器的依赖，从而最大限度地减少延迟并最大限度地提高吞吐量。这对于涉及处理大量数据的任务（例如语言建模）尤其有益。

1、互连技术：

这Groq LPU 使用互连技术以促进处理单元和内存之间的高效通信。基于总线的互连可处理一般通信任务，而片上网络 (NoC) 互连可为要求更高的数据交换提供高带宽、低延迟通信。点对点 (P2P) 互连可实现特定单元之间的直接通信，从而进一步降低关键数据传输的延迟。

2、性能优化：

为了最大限度地利用处理资源，LPU 采用了多线程和流水线技术。神经网络处理集群 (NNPC) 将专为 NLP 工作负载设计的处理单元、内存和互连组合在一起。每个 NNPC 可以同时执行多个线程，从而显著提高吞吐量并实现线程和数据级并行。

流水线技术将复杂任务分解为多个小阶段，允许不同的处理单元同时处理不同的阶段，从而进一步提高效率。这可减少总体延迟并确保数据通过 LPU 的连续流动。

性能比较

LPU 和 GPU 具有不同的用例和应用，反映了它们的专门架构和功能。

Groq 的 LPU 被设计为推理引擎对于 NLP 算法来说，因此很难在相同的基准上真正地并排比较这些芯片。Groq 的 LPU 能够比目前市场上的任何 GPU 更快地加速 AI 模型的推理过程，并且每秒最多可生成五百个推理令牌，这意味着只需几分钟就可以写出一本小说。

GPU 并非专为推理而设计，它们可用于整个 AI 生命周期，包括推理、训练和部署所有类型的 AI 模型。借助用于 AI 开发的专用核心（如 Tensor Core），GPU 可用于 AI 训练。GPU 还可用于数据分析、图像识别和科学模拟。

两者都可以处理大型数据集，但 LPU 可以包含更多数据，从而加快推理过程。Groq 的 LPU 架构采用高带宽、低延迟通信和高效的数据处理机制设计，可确保这些 NLP 应用程序顺畅高效地运行，从而提供卓越的用户体验。

通用并行处理：除了人工智能之外，GPU 还擅长加速涉及大型数据集和并行计算的各种任务，使其成为数据分析、科学模拟和图像识别中的宝贵工具。

选择合适的工具

如果您的工作负载高度并行，并且需要跨各种任务实现高计算吞吐量，那么 GPU 可能是更好的选择。如果您正在处理从开发到部署的整个 AI 流程，那么 GPU 将是您投资的最佳硬件。

但是，如果您主要关注 NLP 应用程序，尤其是涉及大型语言模型和推理任务的应用程序，那么 LPU 的专门架构和优化可以在性能、效率和潜在降低成本方面提供显著优势。

您可以在捷智算平台上以实惠的价格使用最好的 GPU。

如何增强大规模AI加速的硬件可靠性？GPU集群常见可靠性问题及解决方案

选择短期还是长期 GPU 算力租赁服务？二者区别详解

热门产品

NVIDIA QM9790 交换机

NVIDIA H100 Tensor Core GPU

为各类数据中心提供出...

NVIDIA H100 Tensor Core GPU

为各类数据中心提供出...

英伟达h200,全球高性能GPU,现货

英伟达h200,Te...

ESC-N8-E11 AI超算服务器

NVIDIA HGX...