白皮书

通过先进的存储架构助力数据中心发展人工智能。

seagate-supermicro-osnexus

为提高 AI 的效率和可扩展性,Supermicro、Seagate 和 OSNexus 联合推出针对 AI 未来而设计的解决方案。

分钟阅读

seagate-supermicro-osnexus

目录:

    摘要.

    人工智能 (AI) 的兴起推动了对可扩展、高性能且经济高效的数据中心存储解决方案的空前需求。本白皮书展示了一个全面的解决方案,结合了 Supermicro 硬件、基于 Seagate HAMR Mozaic 3+™ (魔彩盒 3+) 技术支持的 Seagate Exos 硬盘和 OSNexus QuantaStor 软件。这种联合解决方案满足了人工智能驱动的数据存储需求的爆炸性增长,提供了同时支持纵向扩展和横向扩展配置的强大架构。主要优势包括增强的可扩展性以适应不断增长的 AI 工作负载,通过高吞吐量和低延迟提供出色的性能,通过减少物理硬盘数量和节省电能来优化成本效益,通过统一管理平台简化操作、实现高级合规性安全功能以及通过高能效的存储解决方案降低环境影响。

    简介.

    AI 和机器学习 (ML) 技术的快速发展从根本上改变了数据存储格局。计算能力的提升、开发者获取资源的便利化以及更快速的开发工具,推动了 AI 驱动的创新爆发。随着 AI 模型变得更加先进,对可扩展、高性能存储解决方案的需求变得前所未有的强烈。数据是 AI 的支柱,有效存储、管理和访问大量数据的能力对于训练 AI 模型和部署 AI 应用至关重要。传统的存储解决方案通常无法满足这些需求,因此必须开发针对 AI 工作负载需求量身定制的新架构。

    不断变化的 AI 工作负载需要不断发展的存储解决方案。

    AI 工作负载带来了传统存储解决方案难以应对的独特挑战。AI 模型需要海量数据进行训练,通常达到 PB 级。这些数据必须易于访问,因为训练过程的效率在很大程度上取决于能否快速检索数据。此外,AI 应用通常涉及大规模数据处理任务,需要高吞吐量和低延迟才能提供实时见解。

    AI 工作负载具有计算密集型的特点,还会产生大量的元数据,必须对这些元数据进行有效管理以防止出现瓶颈。传统存储解决方案有限的可扩展性和性能已经无法满足这些需求了。它们通常缺乏处理动态工作负载的灵活性,导致效率低下和运营成本增加。

    AI 驱动型创新需要存储解决方案能够快速扩展、处理大量非结构化数据并提供对这些数据的无缝访问。例如,训练复杂的 AI 模型涉及迭代处理大量数据集以优化算法并提高准确性。这些迭代所需的大量数据可能会让传统存储系统不堪重负,从而导致延迟并降低 AI 操作的整体效率。

    此外,AI 应用越来越多地部署在即时数据处理至关重要的实时环境中。其中包括自动驾驶汽车、预测性维护和个性化医疗等应用。这些用例要求存储解决方案不仅要提供高容量,还要具备出色的性能以支持即时数据分析和决策。

    支持纵向扩展和横向扩展配置。

    这款由 Supermicro、Seagate 和 OSNexus 联合推出的解决方案结合了尖端的硬件和软件,为 AI 工作负载提供强大、可扩展且经济高效的存储基础架构。该解决方案的核心组件包括 Supermicro 服务器和 JBOD、Seagate Mozaic 3+ (魔彩盒 3+) 硬盘、Seagate Nytro NVMe 固态硬盘和 OSNexus QuantaStor 软件。

    联合解决方案的架构支持纵向扩展和横向扩展配置,迎合不同的部署需求。

    纵向扩展(或垂直扩展)涉及通过添加更多资源(例如 CPU、内存和/或存储硬盘)来增加单个存储系统或服务器的容量。这种方法可以尽可能地提高单个单元的性能,但是在可扩展性方面有先天的局限性。

    另一方面,横向扩展(或水平扩展)涉及向系统添加更多存储节点或服务器,将工作分布在多个单元中。这种方法可实现几乎无限的可扩展性,随着需求的增长无缝扩展架构,使系统能够处理更大、更复杂的 AI 工作负载。

    纵向扩展配置是成本预算有限的小型应用的理想选择,可提供高达 5-10GB/秒的吞吐量。相反,横向扩展配置是为更大型的部署而设计的,其性能会随着并入更多节点而实现线性扩展。这种可扩展性使解决方案可以实现每秒数百 GB 的吞吐量,满足密集型 AI 工作负载的需求。

    Supermicro 服务器、Seagate 硬盘和 QuantaStor 软件的无缝集成形成了一个紧凑高效的存储解决方案。这种架构支持文件和对象存储,使组织可以灵活地选择最适合其特定需求的配置。QuantaStor 提供的统一管理可确保所有组件协调工作,提供最佳性能和可靠性。在单个平台内管理纵向扩展和横向扩展配置的能力,简化了操作并降低了与维护多个存储系统相关的复杂性。

    架构概述。

    该架构包括 Supermicro 服务器、Seagate Exos Mozaic 3+ (魔彩盒 3+) 硬盘和 Seagate Nytro NVMe SSD,全部由 OSNexus QuantaStor 软件编排。这种组合可以满足 AI/ML 工作负载的密集需求,这需要高吞吐量、低延迟并且能够高效处理海量数据集。

    部署基础架构注意事项。

    • 有关成功所需的网络和最低基础架构的详细信息不在本文的讨论范围,但它们对架构决策至关重要。
    • 关键标准:
      • 网络速度(决定最佳介质和节点大小)
      • 机架规范(机架深度和 U 空间)
      • 功率和冷却预算

     

    纵向扩展和横向扩展架构。

    • 纵向扩展架构
      • 此架构是需要经济高效、高密度存储的环境的理想选择。它在 Supermicro 的 24 机箱托架利用双端口 NVMe 硬盘,通过实现对底层硬盘的共享访问提供高可用性和性能。该架构支持通过 JBOD 进行扩展,允许最多四个 JBOD 连接到纵向扩展控制器,从而支持使用 Mozaic 3+ (魔彩盒 3+) 企业级硬盘实现高达 7PB 的存储配置。
      • 在纵向扩展配置中,QuantaStor 利用 OpenZFS(以其高级数据保护、可扩展性和效率而闻名的高性能企业级文件系统,尤其是在大规模存储环境中)可以实现高效的数据完整性检查和存储优化。该架构特别适合小规模 AI/ML 工作负载以及优先考虑降低成本和提高密度的环境。
    带有功能标注的产品图片。

    增大

     

    • 横向扩展架构
      • 横向扩展架构旨在通过添加更多节点来提供线性性能可扩展性。它使用跨节点的纠删码和复制技术以确保高可用性和数据冗余。该架构特别适合性能和容量需求持续增长的大规模 AI/ML 工作负载。例如,训练 GPT(生成式预训练转换器)或 BERT(双向编码器表示的转换器)等大型语言模型 (LLM) 需要巨大的计算能力和数据存储空间,因此横向扩展架构对于管理越来越复杂、越来越多的数据至关重要。此外,在 AI 驱动的基因组研究中,变体分析和基因表达研究等任务需要对基因组数据进行大规模处理,同样将从横向扩展架构提供的可扩展性和高可用性中受益。
      • 此架构可以将混合节点(混合 NVMe 和硬盘)与全闪存节点相结合,让您能够根据特定的性能和容量要求灵活地配置集群。在扩展配置中,QuantaStor 利用其与 Ceph 技术的集成,而 Ceph 技术擅长跨大量节点提供分布式存储。

    主要考虑因素和设计选项。

    根据 AI/ML 工作负载的具体性能要求和数据容量需求,可能需要不同的配置以实现最佳结果。所处理的数据量以及需要访问数据的速度等因素将决定混合配置还是全闪存配置最适合该场景。此外,预算方面的考虑和可扩展性需求也会影响架构的设计选择。

    • 混合配置。
      • 在混合配置中,结合使用 NVMe 固态硬盘和大容量硬盘以平衡性能和成本。该架构在 JBOD 中支持多达 60 或 90 块硬盘,非常适合需要高性能和 PB 级大容量的 AI/ML 工作负载,如医疗和物理研究。
      • 典型的纵向扩展混合池可能每个池使用三个 NVMe 硬盘,用于存储元数据和小型文件,并需要结合大容量硬盘存储较大的数据集。横向扩展混合配置每个节点将有三个或更多 NVMe 硬盘。
    • 全闪存配置
      • 对于需要极高性能的 AI/ML 工作负载(例如实时分析或密集数据处理任务),建议使用全闪存配置。
      • 通过在横向扩展集群中利用数百个 NVMe 硬盘,这些横向扩展配置可提供高达 1TB/秒的吞吐量。
    • 容量和性能注意事项
      • 平衡存储容量和性能需求非常重要。例如,在混合使用闪存和硬盘的横向扩展混合群集中,总存储的 3% 左右可能是用于优化性能的闪存,而在纵向扩展混合群集中,闪存大约为总存储的 1%。由于硬盘在每 TB 成本和总体拥有成本方面具有明显优势,企业 SSD 具有 6 比 1 的价格溢价,硬盘仍然是数据中心中海量存储的首选。
      • 该架构允许从较小的集群开始,然后根据需要通过添加更多节点或 JBOD 进行扩展,确保存储基础架构可以随着 AI/ML 工作负载的增长而增长。

    管理和优化。

    有效的管理和优化对于确保 AI/ML 工作负载在存储架构中发挥最佳性能至关重要。QuantaStor 的高级管理功能简化了操作,提供跨不同配置的全面控制和监督。

    • QuantaStor 统一管理
      • QuantaStor 提供统一的控制平面,简化了纵向扩展和横向扩展架构的管理。它支持自动分层、端到端加密等高级功能,并且符合行业标准,确保存储基础架构安全且针对 AI/ML 工作负载进行了优化。
      • 该软件的网格技术可跨多个站点实现无缝存储扩展,消除了管理不同系统的复杂性。

    使用案例和场景。

    不同的 AI/ML 工作负载需要量身定制的存储解决方案以实现最佳性能和成本效益。根据工作负载的规模和复杂性,可以部署纵向扩展、横向扩展或混合配置以满足各行业和应用的特定需求。

    • 纵向扩展用例
      • 纵向扩展配置非常适合具有较小 AI/ML 工作负载的环境或注重成本效益的环境。它们非常适合媒体和娱乐存储、服务器虚拟化以及数据存档等应用。
    • 横向扩展用例
      • 横向扩展配置专为高性能计算、数据湖和 AI/ML 环境设计,在这些环境中,扩展性能和容量的能力至关重要。这些配置也是大规模对象存储和实时分析的理想选择。
    • 混合用例
      • 组织可以在同一环境中部署纵向扩展和横向扩展配置,使用 QuantaStor 的统一管理跨不同工作负载保持一致性并优化性能。

    whitepaper-joint-ai-supermicro-figure-4

    增大

    技术进步。

    本解决方案体现的先进技术对其有效性至关重要。Seagate Exos Mozaic 3+ (魔彩盒 3+) 硬盘代表了存储技术的重大飞跃。通过利用 HAMR 技术,这些硬盘可实现前所未有的磁密度,可在相同物理占地空间内提供更大的存储容量。这一进步不仅满足了大规模数据存储的需求,还提高了能效,因为存储相同数量的数据需要的硬盘更少。

    Mozaic 3+ (魔彩盒 3+) 硬盘的 TCO 优势非常明显,包括在相同的数据中心空间内将存储容量增加至 3 倍,每 TB 成本降低 25%,每 TB 功耗降低 60%,每 TB 隐含碳降低 70%(与 10TB PMR 硬盘相比,这是当今数据中心需要升级的常见硬盘容量)。该系列硬盘的低功耗特性意味着可降低能源成本,而密度进一步提高可减少物理空间需求,从而节约数据中心基础架构成本。此外,该系列硬盘的低隐含碳使其成为一个更加环保的选择,符合现代企业日益重要的可持续发展目标。

    Seagate Nytro NVMe SSD 的集成进一步增强性能。这些高速硬盘对于管理 AI 工作负载中常见的密集型读写操作至关重要。其低延迟特性确保可以实时访问和处理数据,这对于训练 AI 模型和部署 AI 应用至关重要。SSD 的双端口设计增强了可靠性,即使一个端口发生故障也可保证连续运行。

    OSNexus QuantaStor 软件通过提供智能数据管理和高级安全功能进一步增强了解决方案。软件的自动分层功能确保将数据存储在最合适的层中,从而优化性能和成本。端到端加密和对行业标准的合规性可通过解决 AI 应用中最重要的安全和隐私问题,帮助保护数据,尤其是在医疗保健和金融等经常处理敏感数据的行业中。

    whitepaper-joint-ai-supermicro-figure-6

    增大

     

    解决方案的优势。

    Supermicro、Seagate 和 OSNexus 的联合解决方案提供了几个关键优势,可满足 AI/ML 工作负载的特定需求。这些优势包括:

    • 可扩展性:该解决方案的纵向扩展和横向扩展能力确保它可以随着 AI 工作负载需求的增长而增长。无论组织是在处理几 TB 或几 PB 的数据,该解决方案都可以满足他们的需求,而无需对存储基础架构进行彻底翻新。
    • 性能:Seagate Nytro NVMe SSD 结合 Mozaic 3+ (魔彩盒 3+) 硬盘,再加上 QuantaStor 的管理功能,可提供出色的性能。这对于需要高吞吐量和低延迟才能有效运行的 AI/ML 工作负载尤为重要。
    • 成本效益:该解决方案的架构旨在优化资本支出和运营支出。通过减少所需的物理硬盘数量、降低功耗并提供灵活、统一的管理平台,该解决方案大幅降低了总拥有成本 (TCO)。
    • 统一管理QuantaStor 能够通过单个界面管理纵向扩展和横向扩展架构,简化了操作并降低了与多供应商存储解决方案相关的复杂性。这种统一的方法不仅可以节省时间,还可以减少出错的可能性,并提高整体效率。
    • 安全性与合规性该解决方案包括高级安全功能,可以保护数据免受未经授权的访问,并确保符合行业标准。这对于严监管行业中的 AI 应用尤为重要,在这些行业中,数据泄露可能导致严重的法律和经济处罚。
    • 环境影响:使用基于 Mozaic 3+ (魔彩盒 3+) 平台的 Seagate 硬盘,可降低功耗和减少存储所需的物理空间,从而减轻数据中心对环境的影响。这与技术行业对可持续性的日益重视相吻合。

    用例和应用。

    该解决方案功能全面,可以支持各行各业的各种用例。以下是一些示例:

    • 医疗保健:医疗保健中的 AI/ML 工作负载(例如预测分析和个性化医疗),需要能够快速、安全地处理大量数据。这一联合解决方案提供了支持这些应用所需的可扩展性、性能和安全性。
    • 金融:金融领域常使用 AI 来执行欺诈检测、算法交易和风险管理等任务。这些应用需要高速数据处理和实时分析,而这两者均由该解决方案的高性能存储架构提供支持。
    • 媒体和娱乐:媒体和娱乐行业会产生海量数据,尤其是高分辨率视频的使用不断增加。该解决方案能够处理大规模数据存储,快速访问文件,是视频编辑、渲染和存档等任务的理想选择。
    • 制造: AI/ML 在制造业中用于预测性维护、质量控制和供应链优化。这些应用会生成大量需要进行高效存储和分析的数据。该联合解决方案提供了支持这些用例所需的可扩展性和性能。
    • 研发:在制药、基因组学、材料科学和气候建模等领域,AI 驱动的研究需要存储和处理大型数据集的能力。该解决方案的高吞吐量和低延迟特性使其非常适合这些要求苛刻的应用。

    结论.

    Supermicro、Seagate 和 OSNexus 开发的联合 AI 解决方案提供全面、可扩展且具有成本效益的存储架构,专为 AI/ML 工作负载的独特需求量身定制。通过结合先进的硬件和软件技术,该解决方案可提供卓越的性能、可靠性和效率,使其成为希望利用 AI 获得竞争优势的组织的理想选择。无论是部署在医疗保健、金融、媒体、制造还是研究领域,该解决方案都提供了支持下一代 AI 应用所需的强大基础架构,并为各行业在 AI 驱动型未来的创新铺平了道路。 

    解决方案表格。

    拓扑产品弹性模型原始容量可用容量详细规格
    纵向扩展SBB 混合:三重奇偶校验2039TB 原始容量1512TB 可用容量链接
    纵向扩展SBB 全闪存双奇偶校验(4d+2p)737TB 原始容量553TB 可用容量链接
    横向扩展Hyper 全闪存EC2k+2m/REP31106TB 原始容量533TB 可用容量链接
    横向扩展4U/36EC4K+2m/REP33974TB 原始容量2513TB 可用容量链接
    横向扩展4U/36EC8K+3m/REP38342TB 原始容量5786TB 可用容量链接
    横向扩展双节点顶部加载EC8K+3m/REP311981TB 原始容量8406TB 可用容量链接


    首字母缩略词和其他信息。

    SBB:存储桥接托架。
    EC:纠删码。
    “双重奇偶校验”和“三重奇偶校验”是指用于提供数据冗余和容错的奇偶校验块数量。
    与弹性模型相关的数字字符串。