面向 AI 的数据存储
存储和激活海量数据对于下一波 AI 创新至关重要。
应用开发人员正在竞相训练和部署 AI 模型。重点是要找到合适的数据并提升算力。随着 AI 模型和应用的激增,弄清如何存储生成的海量 EB 数据已成为一项紧迫挑战。支持 AI 工作负载需要在 AI 数据工作流中结合重要的内存和存储技术。而最终大规模部署 AI 需要硬盘的加持。
为 AI 提供学习、创建以及改进所需的数据离不开广泛的存储技术。从高吞吐量内存到高容量硬盘,要针对任何 AI 工作负载找到合适的存储方案,都关系到平衡对性能、成本和可扩展性的需求。
AI 计算集群会训练、运行以及优化语言模型。GPU、CPU、NPU 和 TPU 与高性能存储设备紧密耦合,为极端计算提供每秒 TB 甚至 PB 的吞吐量。而使用和创建的输入和输出数据会流到网络存储集群中,数据会长期保存在这里,而且主要保存在机械硬盘上,进而支持未来的再训练、质量控制和合规性。
如今这些先进的 AI 创新者还运营着全球超大规模云数据中心。这些组织选择将其 90% 的 EB 级在线数据¹存储在机械硬盘上,因为深知机械硬盘在大容量存储方面独具性价比优势。尽管 SSD 也是一项关键技术,但随着针对 AI 优化的架构部署越来越多,机械硬盘将持续存储大部分数据。
通过支持整个人工智能数据工作流,硬盘在验证人工智能模型中发挥着至关重要的作用。
Seagate 分析,基于 IDC Multi-Client Study,《Cloud Infrastructure Index 2023: Compute and Storage Consumption by 100 Service Providers》,2023 年 11 月.
Seagate 分析,基于《Forward Insights Q323 SSD Insights》,2023 年 8 月;《IDC Worldwide Hard Disk Drive Forecast 2022-2027》,2023 年 4 月,文档#US50568323;TRENDFOCUS SDAS 长期预测,2023 年 8 月。
使用 5 年生命周期的总隐含碳。
Sara McAllister 等人,《A Call for Research on Storage Emissions》,Hotcarbon.org,2024 年。