博客

存储和计算:AI 工作流的协同需求。

硬盘和 SSD 将与 GPU、CPU、HBM 和 DRAM 一起成为人工智能应用的重要组件。

目录

storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image

人工智能 (AI) 应用的采用在全球范围内持续增长。同时,支持 AI 的 IT 解决方案功能正在加速发展。前所未有的创新热潮随之涌现。

目前,处理器(逻辑)因其对 AI 的贡献而受到企业领导者和投资者的重点关注。毫无疑问,处理器对于 AI 和高性能计算至关重要。但 AI 的成功并不仅仅取决于计算和高速性能。同样重要的是,AI 应用还依赖于数据存储,数据存储提供原始数据的初始存储库,支持设置检查点以建立对 AI 工作流的信任,并存储 AI 分析的推理和结果。

任何成功的 AI 实践都需要计算和数据存储资源的协同作用。

大型数据中心正不断扩展其 AI 功能,显而易见的是,AI 应用不仅仅依赖 AI 数据中心架构的算力。Seagate 计算集群包括高性能处理器、高带宽内存 (HBM)、动态随机存取内存 (DRAM) 和高性能本地固态硬盘 (SSD),它们形成强大的 AI 训练引擎。计算集群组件在本地,通常彼此相邻,因为增加一点点距离都有可能导致延迟和性能问题。

AI 应用还依赖于存储集群,包括高容量网络硬盘和网络 SSD(相较于计算集群中性能更高的本地 SSD,网络 SSD 容量更大)。存储集群是联网的(分布式),因为大规模集群不太担心存储性能速度。与计算集群相比,组件距离在其总延迟等式中只是个较小的因素,预期延迟可以达到纳秒级。数据最终流向存储集群(主要由大容量硬盘组成),以进行长期保留。

本文探讨了计算和存储如何在典型 AI 工作流的多个阶段中协同工作。

面向 AI 的性能和可扩展性。

AI 工作流中的部分技术性能更高,更具可扩展性,但每一种技术都是该流程不可或缺的。设备内置内存具备高性能,通常由连接到处理器(图形处理单元 (GPU) 和中央处理单元 (CPU) 或数据处理单元 (DPU))的 HBM 或 DRAM 组成。DPU 是卸载功能引擎,连接到 CPU,有助于处理特定任务。一些架构会使用 DPU,而有些则不会使用。内存的高吞吐量可实现 AI 的高效数据提取和模型训练。

SSD 的低延迟和充足容量可实现快速推理和对存储内容的频繁访问。在 AI 数据中心架构中,高性能本地 SSD 包含在计算集群中,靠近处理器和内存的位置。本地 SSD 通常运行三级单元内存,也具有高耐用性,但通常比网络 SSD 更昂贵,而容量却没有网络 SSD 高。

网络 SSD 具有比本地 SSD 更高的数据存储容量,用在存储集群中,并在整个 AI 应用工作流程中承担其他特定职责。它们的性能速度与本地 SSD 的速度不一致。相对来说,网络 SSD 在每天硬盘写入次数方面不太耐用,但它们的容量较大,弥补了这一不足。

网络硬盘也是 AI数据中心架构存储集群的一部分,是 AI 工作流中最具扩展性、最高效的 IT 设备。这些设备的访问速度相对适中,但是容量很高,非常适合不需要快速频繁访问的实例。

AI 的无限循环。

AI 工作流在使用和创建的无限循环中运行,不仅需要支持计算的处理器和内存,还需要存储组件。AI 工作流的相互关联的步骤包括搜寻数据、训练模型、创建内容、存储内容、保留数据和重用数据。我们来看看计算和存储在这些阶段中的作用。

步骤 1:搜寻数据。

数据来源阶段涉及定义、发现和准备用于 AI 分析的数据。

计算:GPU 通过促进高速数据预处理和转换,在数据搜寻阶段发挥基础作用。它们对 CPU 起到补充作用,在 CPU 上运行主应用程序的同时并行执行重复性计算。CPU 作为主要单元,在 GPU 执行一小组更专业的任务时管理多个通用计算任务。

存储:在数据搜寻阶段,网络 SSD 和网络硬盘用于存储创建新内容所需的大量数据。网络 SSD 充当可立即访问的数据层,提供更快的性能。网络硬盘提供充足、密集、可扩展的容量并通过长期保留和数据保护来提供原始数据。

步骤 2:训练模型。

在模型训练步骤中,模型会通过存储的数据进行学习。训练是一个反复试验的过程。在这个过程中,模型收敛并通过检查点进行保护。训练需要高速数据访问。

计算:GPU 在模型训练阶段至关重要,其并行处理功能可处理深度学习中涉及的大量计算负载。AI 训练涉及数千个矩阵乘法,而 GPU 可以同时处理这些运算,由此加速这一过程,并可以使用数十亿个参数来训练复杂模型。CPU 与 GPU 协同工作,协调内存和计算资源之间的数据流。CPU 管理批处理准备和队列管理等任务,以便将正确的数据在正确的时间输入到 GPU。它们还处理模型超参数的优化,执行可能不需要 GPU 的并行处理能力的计算。

在模型训练中,HBM 和 DRAM 对于快速数据访问至关重要,并将活动数据集保存在处理器附近。HBM 通常集成到 GPU 中,通过让 GPU 在训练期间访问最常用的数据来显著提高数据处理速度。

本地 SSD 用作此阶段中所用数据集的快速访问存储。它们存储中间训练结果并允许快速检索大型数据集。它们对于需要快速访问大量数据的训练模型特别有用,例如涉及数百万张图像的图像识别模型。

存储:硬盘以经济实惠的方式存储训练 AI 模型所需的大量数据。除了提供所需的可扩展容量,硬盘还可以帮助保持数据的完整性,存储和保护已创建内容的复制版本。硬盘与其他存储选项相比更经济高效,可提供可靠的长期存储以及高效保存和管理大型数据集。

网络硬盘和网络 SSD 会存储检查点以保护和优化模型训练。检查点是模型状态在训练、优化和调整过程的特定时刻保存的快照。稍后可能会调用这些快照以证明知识产权或显示算法如何得出其结论。在检查点中使用 SSD 时,由于 SSD 的低延迟访问,将以较短的时间间隔(即每分钟)写入检查点。但由于相对于硬盘来说容量较小,所以数据通常会在短时间(即五分钟)后被覆盖。相比之下,已保存硬盘检查点通常以较慢的间隔(即每五分钟)写入一次,但由于硬盘具有可扩展容量,因此几乎可以永久保存。

步骤 3:创建内容。

内容创建阶段涉及使用经过训练的模型创建输出的推理过程。

计算:在内容创建过程中,GPU 会执行 AI 推理任务,将经过训练的模型应用于新的数据输入。这种并行性使 GPU 能够同时执行多个推理,使其成为视频生成或对话 AI 系统等实时应用所不可或缺的。GPU 在内容创建过程中主导计算任务,而 CPU 对于管理控制逻辑和执行需要串行处理的任何运算则至关重要。这包括生成脚本、处理用户输入以及运行不需要 GPU 高吞吐量的低优先级后台任务。

内容创建步骤使用 HBM 和 DRAM。内存在实时数据访问中起着至关重要的作用,可短暂存储 AI 推理的结果并将其反馈到模型中以供进一步优化。大容量 DRAM 支持内容创建的多次迭代,而不会延缓工作流程,尤其是在视频生成或实时图像处理等应用中。

内容创建期间,本地 SSD 提供实时处理所需的快速读/写入速度。无论 AI 是生成新的图像、视频还是文本,SSD 都可以使系统能够处理频繁、高速的 I/O 操作,而不会出现瓶颈,确保快速生成内容。

存储:创建步骤的主要存储支持技术是 HBM、DRAM 和本地 SSD。

步骤 4:存储内容。

内容存储阶段,将保存新创建的数据以用于持续优化、质量保证以及合规性。

计算:
虽然不直接参与长期存储,但 GPU 和 CPU 可在准备数据进行存储时协助压缩或加密数据。它们快速处理大量数据的能力意味着内容可毫无延迟地进行存档。在将数据移动到长期存储之前,内存用作临时缓存。DRAM 加快写入操作速度,快速高效地保存 AI 生成的内容。这在实时 AI 应用中尤为重要,因为在这些应用中,存储数据发生延迟可能会导致瓶颈。

存储:内容存储阶段依赖于网络 SSD 和网络硬盘来保存数据以用于持续优化、质量保证和合规性。网络SSD 提供速度匹配的数据层,并用于 AI 生成内容的短期、高速存储。与硬盘相比,SSD 的容量较低,所以通常用于存储经常访问的内容或必须立即供编辑和提炼的内容。

迭代过程会产生新的经过验证的数据并需要存储。保存这些数据是为了持续改进、保证质量以及符合法规。硬盘用于存储和保护所创建内容的复制版本,并提供关键容量,用于存储 AI 处理过程中生成的内容。硬盘特别适合这一用途,因为与其他存储选项(如 SSD)相比,它们以相对低的成本提供较大存储容量。

步骤 5:保存数据。

数据保存阶段,复制的数据集将跨地区和环境保留。存储资源通常用于此阶段。

存储:存储的数据是值得信赖的 AI 的支柱,可以帮助数据科学家确保模型按预期运行。而网络 SSD 作为性能媒介,将这些机械硬盘连接到本地 SSD 层,促进数据在生态系统中移动。

机械硬盘是实现长期数据存储和数据保护的主要工具。它们帮助维护 AI 内容创建的结果,安全地存储生成的内容,以便在需要时访问这些内容。它们还提供高效处理不断增长的数据量所需的可扩展性。

步骤 6:重用数据。

最后,在数据重用环节,源数据、训练数据和推理数据将应用于工作流的下一次迭代。

计算: GPU 通过在存档数据集上重新运行模型以进行新的推理或额外训练,在数据重用阶段发挥重要作用,让 AI 数据循环得以重新开始。它们能够在大型数据集上执行并行计算,使 AI 系统能够以最少的时间投入不断提高模型的准确性。CPU 可查询和检索存储的数据以供重复使用。它们能够高效地过滤和处理历史数据,将相关部分反馈到训练模型中。在大规模 AI 系统中,CPU 通常会执行这些任务,同时管理存储系统和计算集群之间的交互。

当检索历史数据以便在 AI 模型分析的另一次迭代中重复使用时,内存可确保快速访问大型数据集。HBM 允许将数据集快速加载到 GPU 内存中,然后便可立即用于重新训练或实时推理。

存储:内容输出反馈到模型中,提高其准确性并推动新模型的生成。网络机械硬盘和 SSD 支持地理位置分散的 AI 数据创建。原始数据集和结果成为新工作流的来源。SSD 可以加速以前存储的数据的检索。低延迟访问促进了将这些数据快速重新集成到 AI 工作流中,从而减少了等待时间,并提高了整体系统效率。硬盘可满足 AI 数据重用阶段的大容量存储要求,从而以合理的成本实现该模型的后续迭代。

存储是 AI 的支柱。

正如我们所看到的,AI 工作流需要高性能的处理器和数据存储解决方案。设备内置内存和 SSD 凭借其高速性能,可实现快速推理,在 AI 应用中占有一席之地。但我们倾向于将硬盘视为 AI 的支柱。它们特别重要的原因是具有经济的可扩展性,这是许多 AI 工作流中必不可少的特性。

Seagate 硬盘采用 Mozaic 3+™(魔彩盒 3+) 技术(我们特有的热辅助磁记录 (HAMR) 实施技术),其磁密度、效率和空间优化优势使其成为 AI 应用的强大选择。这些硬盘提供前所未有的每盘片 3TB+ 的磁密度,目前可提供 30TB 起的容量并向超大规模客户批量出货。Seagate 已经在测试 Mozaic (魔彩盒) 平台实现每盘片 4TB+ 和 5TB+ 的容量。

与当前这一代垂直磁记录 (PMR) 硬盘相比,Mozaic 3+ (魔彩盒 3+) 硬盘的运行功耗只有 PMR 的四分之一,每 TB 隐含碳排放为十分之一。

在 AI 工作负载中,计算和存储协同工作。以计算为中心的处理和内存以及高性能 SSD在 AI 应用中至关重要。同样重要的是可扩展大容量数据存储解决方案,而 Seagate 硬盘正是这一领域的佼佼者。