Whitepaper

Arquitetura de armazenamento avançada para capacitar a IA em data centers.

seagate-supermicro-osnexus

Desenvolvida para o futuro da IA, uma solução conjunta da Supermicro, Seagate e OSNexus foi projetada para gerar eficiência e escalabilidade de IA.

minuto(s) de leitura

seagate-supermicro-osnexus

Índice:

    Resumo executivo.

    A ascensão da inteligência artificial (IA) gerou uma demanda sem precedentes por soluções de armazenamento de data center escaláveis, de alto desempenho e econômicas. Este whitepaper apresenta uma solução abrangente que combina o hardware da Supermicro, discos rígidos Seagate Exos habilitados pela tecnologia Mozaic 3+™ baseada em HAMR da Seagate e o software OSNexus QuantaStor. Essa solução conjunta atende ao crescimento explosivo nas necessidades de armazenamento de dados gerados por IA, fornecendo uma arquitetura robusta que oferece suporte a configurações de expansão horizontal e vertical. Os principais benefícios incluem escalabilidade aprimorada para acomodar cargas de trabalho de IA crescentes, desempenho excepcional com alto throughput e baixa latência, eficiência de custos otimizada com a redução de discos físicos e economia de energia, uma plataforma de gerenciamento unificada que simplifica as operações, recursos avançados de segurança para conformidade e impacto ambiental reduzido por meio de soluções de armazenamento de baixo consumo de energia.

    Introdução.

    A rápida evolução das tecnologias de IA e machine learning (ML) transformaram fundamentalmente o panorama do armazenamento de dados. Os avanços em poder computacional, acesso democratizado para desenvolvedores e ferramentas de desenvolvimento mais rápidas levaram a uma explosão de inovação gerada pela IA. À medida que os modelos de IA ficam mais avançados, a necessidade por soluções de armazenamento escaláveis e de alto desempenho nunca foi tão grande. Os dados são a base da IA, e a capacidade de armazenar, gerenciar e acessar enormes quantidades de dados com eficiência é crucial para treinar modelos de IA e implantar aplicativos de IA. As soluções de armazenamento tradicionais muitas vezes não conseguem atender a essas demandas, sendo necessário o desenvolvimento de novas arquiteturas sob medida para as necessidades das cargas de trabalho de IA.

    As cargas de trabalho de IA crescentes exigem soluções de armazenamento crescentes.

    As cargas de trabalho de IA apresentam desafios únicos que as soluções de armazenamento tradicionais têm dificuldade de superar. Os modelos de IA requerem grandes quantidades de dados para treinamento, muitas vezes atingindo uma escala de petabytes. Esses dados devem ser imediatamente acessíveis, visto que a eficiência do processo de treinamento depende amplamente da rápida recuperação de dados. Além disso, os aplicativos de IA costumam envolver tarefas de processamento de dados em grande escala, que exigem alto throughput e baixa latência para fornecer insights em tempo real.

    A intensidade computacional das cargas de trabalho de IA também gera quantidades significativas de metadados, que devem ser gerenciados com eficiência para evitar gargalos. As soluções de armazenamento tradicionais, com sua escalabilidade e desempenho limitados, são inadequadas para essas demandas. Muitas vezes, elas não têm a flexibilidade para lidar com cargas de trabalho dinâmicas, levando a ineficiências e custos operacionais mais altos.

    A inovação gerada pela IA precisa de soluções de armazenamento que possam ser expandidas rapidamente, lidar com grandes volumes de dados não estruturados e fornecer acesso integrado a esses dados. Por exemplo, treinar um modelo de IA complexo envolve processamento iterativo de conjuntos de dados amplos para aperfeiçoar algoritmos e aumentar a precisão. O enorme volume de dados necessário para essas iterações pode sobrecarregar os sistemas de armazenamento tradicionais, causando atrasos e reduzindo a eficiência geral das operações de IA.

    Além disso, os aplicativos de IA estão, cada vez mais, implantados em ambientes de tempo real, nos quais o processamento de dados imediato é essencial. Isso inclui aplicações como veículos autônomos, manutenção preditiva e saúde personalizada. Esses casos de uso exigem soluções de armazenamento que não só ofereçam alta capacidade, mas também forneçam um desempenho excepcional para oferecer suporte à análise de dados instantânea e tomada de decisões.

    Suporte a configurações de expansão horizontal e vertical.

    A solução conjunta da Supermicro, Seagate e OSNexus combina hardware e software de ponta para fornecer uma infraestrutura de armazenamento robusta, escalável e econômica para cargas de trabalho de IA. Os componentes básicos dessa solução incluem JBODs e servidores Supermicro, discos rígidos Seagate Mozaic 3+, SSDs Seagate Nytro NVMe e software OSNexus QuantaStor.

    A arquitetura da solução conjunta oferece suporte a configurações de expansão horizontal e vertical, atendendo a diversas necessidades de implementação.

    A expansão vertical envolve aumentar a capacidade de um sistema ou servidor de armazenamento único com a adição de mais recursos, como CPUs, memória e/ou discos de armazenamento. Essa abordagem maximiza o desempenho de unidades individuais, mas tem limitações inerentes em termos de escalabilidade.

    A expansão horizontal, por outro lado, envolve adicionar mais nós de armazenamento ou servidores a um sistema, distribuindo a carga de trabalho entre várias unidades. Essa abordagem possibilita uma escalabilidade praticamente ilimitada, permitindo que os sistemas lidem com cargas de trabalho de IA maiores e mais complexas ao expandir a arquitetura de forma integrada à medida que a demanda cresce.

    As configurações de expansão vertical são ideais para aplicações menores com limite de custo, oferecendo throughput de até 5-10 GB/s. Por outro lado, as configurações de expansão horizontal são projetadas para implantações maiores, com o desempenho escalando linearmente à medida que nós adicionais são incorporados. Com essa escalabilidade, a solução pode atingir centenas de gigabytes por segundo em throughput, atendendo às demandas das cargas de trabalho de IA intensas.

    A integração perfeita de servidores da Supermicro, discos da Seagate e software QuantaStor forma uma solução de armazenamento coesa e eficiente. Essa arquitetura oferece suporte a armazenamento de arquivos e de objetos, fornecendo às organizações a flexibilidade para escolher a configuração mais adequada para suas necessidades específicas. O gerenciamento unificado fornecido pela QuantaStor garante que todos os componentes funcionem em harmonia, proporcionando desempenho e confiabilidade otimizados. A capacidade de gerenciar configurações de expansão horizontal e vertical dentro de uma única plataforma simplifica as operações e reduz a complexidade associada à manutenção de vários sistemas de armazenamento.

    Visão geral da arquitetura.

    A arquitetura inclui servidores Supermicro, discos rígidos Seagate Exos Mozaic 3+ e SSDs Seagate Nytro NVMe, tudo orquestrado pelo software OSNexus QuantaStor. Essa combinação atende às demandas intensas das cargas de trabalho de IA/ML, que exigem alto throughput, baixa latência e a capacidade de lidar com conjuntos de dados massivos de modo eficiente.

    Considerações sobre a infraestrutura de implantação.

    • Detalhes sobre a rede e a infraestrutura mínima necessárias para o sucesso estão além do escopo deste artigo, mas são cruciais para a tomada de decisões arquitetônicas.
    • Critérios principais:
      • Velocidade de rede (determina o tamanho ideal de mídia e nó)
      • Especificações de rack (profundidade do rack e espaço U)
      • Orçamento de energia e refrigeração

    Arquiteturas de expansão horizontal e vertical.

    • Arquitetura de expansão vertical
      • Essa arquitetura é ideal para ambientes que exigem armazenamento econômico de alta densidade. Ele utiliza discos NVMe de porta dupla no chassi de 24 baias da Supermicro, que fornece alta disponibilidade e desempenho ao possibilitar acesso compartilhado aos discos subjacentes. A arquitetura oferece suporte à expansão por meio de JBODs, possibilitando que até quatro JBODs sejam conectados aos controladores de expansão vertical, oferecendo suporte a configurações com até sete petabytes de armazenamento com discos rígidos de classe corporativa Mozaic 3+.
      • Em configurações de expansão vertical, a QuantaStor utiliza OpenZFS — o sistema de arquivos de nível corporativo de alto desempenho conhecido por sua proteção de dados avançada, escalabilidade e eficiência, principalmente em ambientes de armazenamento de grande escala — permitindo verificações de integridade de dados eficientes e otimização de armazenamento. A arquitetura é especialmente adequada para cargas de trabalho e ambientes de IA/ML de menor escala, nos quais minimizar o custo e maximizar a densidade são prioridades.
    Imagem do produto com legendas de recursos.

    Ampliar

    • Arquitetura de expansão horizontal
      • A arquitetura de expansão horizontal foi desenvolvida para fornecer escalabilidade de desempenho linear ao adicionar mais nós. Ele usa técnicas de replicação e codificação de apagamento entre os nós para garantir a alta disponibilidade e redundância de dados. A arquitetura é especialmente apropriada para cargas de trabalho de IA/ML de grande escala em que as necessidades de desempenho e capacidade estão continuamente crescendo. Por exemplo, o treinamento de grandes modelos de linguagem (LLMs), como GPT (Generative Pre-Trained Transformer) ou BERT (Bidirectional Encoder Representations from Transformers), requer um enorme poder computacional e armazenamento de dados, tornando a arquitetura de expansão horizontal essencial para gerenciar a crescente complexidade e volume de dados. Além disso, a pesquisa genômica impulsionada por IA, na qual o processamento em grande escala de dados genômicos é necessário para tarefas como análise variante e estudos de expressão genética, também se beneficia significativamente da escalabilidade e alta disponibilidade que a arquitetura de expansão horizontal oferece.
      • Essa arquitetura pode combinar nós híbridos (combinando NVMe e discos rígidos) com nós totalmente flash, fornecendo flexibilidade na configuração de clusters com base em requisitos específicos de desempenho e capacidade. Nas configurações de expansão horizontal, a QuantaStor utiliza sua integração com a tecnologia Ceph, que é excelente no fornecimento de armazenamento distribuído em um grande número de nós.

    Principais considerações e opções de design.

    Dependendo dos requisitos de desempenho específicos e das necessidades de capacidade de dados das cargas de trabalho de IA/ML, diferentes configurações podem ser necessárias para alcançar os resultados ideais. Fatores como o volume de dados sendo processados e a velocidade na qual os dados precisam ser acessados ditarão se uma configuração híbrida ou totalmente flash será a melhor opção para o cenário. Além disso, considerações de orçamento e requisitos de escalabilidade influenciarão as escolhas de design para a arquitetura.

    • Configurações híbridas.
      • Em configurações híbridas, uma combinação de SSDs NVMe e discos rígidos de alta capacidade é usada para equilibrar desempenho e custo. A arquitetura oferece suporte a até 60 ou 90 discos em JBODs, tornando-o apropriado para cargas de trabalho de IA/ML que requerem alto desempenho e alta capacidade na faixa de PB, como pesquisa médica e física.
      • Um pool híbrido de expansão vertical típico pode usar três discos NVMe por pool para metadados e descarregamento de arquivos pequenos, combinados com discos rígidos de grande capacidade para armazenar conjuntos de dados maiores. As configurações híbridas de expansão horizontal teriam três ou mais discos NVMe por nó.
    • Configurações totalmente flash
      • Configurações totalmente flash são recomendadas para cargas de trabalho de IA/ML que exigem alto desempenho, como análise em tempo real ou tarefas intensivas de processamento de dados.
      • Essas configurações de expansão horizontal podem fornecer throughput de até 1 TB/s com o uso de centenas de unidades NVMe em clusters de expansão horizontal.
    • Considerações relativas a capacidade e desempenho
      • É essencial equilibrar a capacidade de armazenamento com os requisitos de desempenho. Por exemplo, em um cluster híbrido de expansão horizontal com uma mistura de discos rígidos e flash, cerca de 3% do armazenamento total pode ser flash para otimizar o desempenho, ao passo que, em um cluster híbrido de expansão vertical, o armazenamento flash poderia ser em torno de 1% do total. Com os discos rígidos oferecendo uma clara vantagem em custo por terabyte e TCO (os SSDs corporativos têm um preço adicional de 6 para 1), os discos rígidos continuam sendo a escolha preferencial para capacidade massiva em data centers
      • Com essa arquitetura, é possível começar com clusters menores e expandi-los conforme necessário adicionando mais nós ou JBODs, garantindo que a infraestrutura de armazenamento possa crescer com as cargas de trabalho de IA/ML.

    Gerenciamento e otimização.

    O gerenciamento e a otimização eficazes são cruciais para garantir que as cargas de trabalho de IA/ML tenham o melhor desempenho dentro da arquitetura de armazenamento. Os recursos de gerenciamento avançado da QuantaStor simplificam as operações, fornecendo controle abrangente e supervisão entre diversas configurações.

    • Gerenciamento unificado QuantaStor
      • A QuantaStor fornece um plano de controle unificado que simplifica o gerenciamento de arquiteturas de expansão horizontal e vertical. Ela oferece suporte a recursos avançados, como armazenamento automático em camadas, criptografia de ponta a ponta e conformidade com padrões do setor, garantindo que a infraestrutura de armazenamento seja segura e otimizada para cargas de trabalho de IA/ML.
      • A tecnologia de grade do software possibilita a expansão contínua do armazenamento entre várias unidades, eliminando a complexidade de gerenciar sistemas diferentes.

    Casos de uso e cenários.

    Diferentes cargas de trabalho de IA/ML exigem soluções de armazenamento adaptadas para alcançar o desempenho ideal e a relação custo-benefício. Dependendo da escala e da complexidade da carga de trabalho, configurações de expansão horizontal, expansão vertical ou mista podem ser implementadas para atender às demandas específicas de vários setores e aplicações.

    • Casos de uso de expansão vertical
      • As configurações de expansão vertical são ideais para ambientes com cargas de trabalho de IA/ML menores ou para aqueles que priorizam a economia. Eles são ideais para aplicações como armazenamento de mídia e entretenimento, virtualização de servidor e arquivamento de dados.
    • Casos de uso de expansão horizontal
      • As configurações de expansão horizontal são projetadas para computação de alto desempenho, data lakes e ambientes de IA/ML em que a capacidade de expandir o desempenho e a capacidade é crucial. Essas configurações também são ideais para armazenamento de objetos de grande escala e análise em tempo real.
    • Casos de uso mistos
      • As organizações podem implantar configurações de expansão horizontal e vertical dentro do mesmo ambiente, usando o gerenciamento unificado da QuantaStor para manter consistência e otimizar o desempenho entre diferentes cargas de trabalho.

    whitepaper-joint-ai-supermicro-figure-4

    Ampliar

    Avanços na tecnologia.

    Os avanços tecnológicos incorporados nesta solução são cruciais para sua eficácia. Os discos rígidos Seagate Exos Mozaic 3+ representam um avanço significativo na tecnologia de armazenamento. Ao utilizar a tecnologia HAMR, esses discos atingem uma densidade de área sem precedentes, garantindo uma maior capacidade de armazenamento dentro do mesmo volume físico. Esse avanço não só atende à necessidade de armazenamento de dados em grande escala, mas também aprimora a eficiência energética, já que menos discos são necessários para armazenar a mesma quantidade de dados.

    As vantagens de TCO dos discos rígidos Mozaic 3+ são consideráveis, incluindo o triplo da capacidade de armazenamento no mesmo espaço físico do data center, com um custo por TB 25% inferior, um consumo de energia 60% mais baixo por TB e uma redução de 70% do carbono incorporado por TB (em comparação com discos PMR de 10 TB, uma capacidade de disco comum que precisa de upgrade nos data centers atualmente). O consumo de energia mais baixo dos discos se traduz em custos de energia reduzidos, e a densidade mais alta reduz a necessidade por espaço físico, levando a economias na infraestrutura do data center. Além disso, o baixo carbono incorporado dos discos os torna uma opção mais ecológica, em conformidade com as metas de sustentabilidade, que são cada vez mais importantes para as empresas modernas.

    A integração dos SSDs Seagate Nytro NVMe adiciona outra camada de desempenho aprimorado. Esses discos de alta velocidade são essenciais para gerenciar as operações de leitura e gravação intensas típicas das cargas de trabalho de IA. A baixa latência garante que os dados possam ser acessados e processados em tempo real, o que é crucial para treinar modelos de IA e implantar aplicativos de IA. O design de porta dupla dos SSDs aumenta a confiabilidade, pois possibilita a operação contínua mesmo se uma porta falhar.

    O software OSNexus QuantaStor aprimora ainda mais a solução ao fornecer gerenciamento inteligente de dados e recursos avançados de segurança. Os recursos de nivelamento automático do software garantem que os dados sejam armazenados na camada mais apropriada, otimizando desempenho e custo. A criptografia de ponta a ponta e a conformidade com os padrões do setor ajudam a proteger os dados tratando das preocupações com segurança e privacidade que são fundamentais em aplicações de IA, principalmente em setores como saúde e finanças, nos quais dados confidenciais são manipulados com frequência.

    whitepaper-joint-ai-supermicro-figure-6

    Ampliar

    Benefícios da solução.

    A solução conjunta da Supermicro, Seagate e OSNexus oferece vários benefícios importantes que atendem às necessidades específicas das cargas de trabalho de IA/ML. Esses benefícios incluem:

    • Escalabilidade: A capacidade da solução de expandir horizontal e verticalmente garante que ela possa crescer juntamente com as crescentes demandas das cargas de trabalho de IA. Quer uma organização esteja lidando com alguns terabytes ou vários petabytes de dados, a solução pode acomodar suas necessidades sem exigir uma revisão completa da infraestrutura de armazenamento.
    • Desempenho: O uso de SSDs Seagate Nytro NVMe e discos rígidos Mozaic 3+, combinado com os recursos de gerenciamento da QuantaStor, fornece um desempenho excepcional. Isso é especialmente importante para as cargas de trabalho de IA/ML que exigem alto throughput e baixa latência para funcionar de maneira eficaz.
    • Economia: A arquitetura da solução foi desenvolvida para otimizar as despesas de capital e operacionais. Ao reduzir o número de discos físicos necessários, diminuir o consumo de energia e oferecer uma plataforma de gerenciamento unificado flexível, a solução reduz significativamente o custo total de propriedade (TCO).
    • Gerenciamento unificado: A capacidade da QuantaStor de gerenciar arquiteturas de expansão horizontal e vertical a partir de uma única interface simplifica as operações e reduz a complexidade associada às soluções de armazenamento de vários fornecedores. Essa abordagem unificada não só economiza tempo, como reduz a possibilidade de erros e aumenta a eficiência geral.
    • Segurança e conformidade: A solução inclui recursos avançados de segurança que protegem os dados contra acesso não autorizado e garantem conformidade com padrões do setor. Isso é especialmente importante para aplicações de IA em setores regulamentados, nos quais as violações de dados podem resultar em penalidades legais e financeiras significativas.
    • Impacto ambiental: O uso de discos da Seagate baseados na plataforma Mozaic 3+ reduz o impacto ambiental dos data centers, diminuindo o consumo de energia e o espaço físico necessário para o armazenamento. Isso está alinhado à crescente ênfase na sustentabilidade no setor de tecnologia.

    Casos de uso e aplicações.

    A solução é versátil o suficiente para oferecer suporte a uma ampla gama de casos de uso em vários setores. Alguns exemplos incluem:

    • Área de saúde: As cargas de trabalho de IA/ML na área de saúde, como análise preditiva e medicina personalizada, exigem a capacidade de processar enormes quantidades de dados de forma rápida e segura. A solução conjunta oferece a escalabilidade, o desempenho e a segurança necessários para oferecer suporte a essas aplicações.
    • Finanças: Em finanças, a IA é usada para tarefas como detecção de fraude, negociação algorítmica e gerenciamento de risco... Essas aplicações exigem processamento de dados de alta velocidade e análise em tempo real, que são compatíveis com a arquitetura de armazenamento de alto desempenho da solução.
    • Mídia e entretenimento: O setor de mídia e entretenimento gera quantidades massivas de dados, principalmente com o aumento no uso de vídeo de alta resolução. A capacidade da solução de lidar com armazenamento de dados de grande escala e fornecer acesso rápido a arquivos a torna ideal para tarefas como edição de vídeo, renderização e arquivamento.
    • Fabricação: A IA/ML é usada na fabricação para manutenção preditiva, controle de qualidade e otimização da cadeia de suprimento. Essas aplicações geram grandes volumes de dados que precisam ser armazenados e analisados de forma eficiente. A solução conjunta fornece a escalabilidade e o desempenho necessários para oferecer suporte a esses casos de uso.
    • Pesquisa e desenvolvimento: A pesquisa impulsionada por IA em campos como farmacêutico, genoma, ciência de materiais e modelagem climática requer a capacidade de armazenar e processar grandes conjuntos de dados. O alto throughput e baixa latência da solução a tornam ideal para essas aplicações exigentes.

    Conclusão.

    A solução de IA conjunta desenvolvida pela Supermicro, Seagate e OSNexus oferece uma arquitetura de armazenamento abrangente, escalável e econômica adaptada para as demandas exclusivas das cargas de trabalho de IA/ML. Ao combinar tecnologias avançadas de hardware e software, a solução fornece desempenho, confiabilidade e eficiência excepcionais, tornando-a a escolha ideal para as organizações que desejam aproveitar a IA para obter uma vantagem competitiva. Seja implementada na área de saúde, finanças, mídia, fabricação ou pesquisa, essa solução fornece a infraestrutura robusta necessária para oferecer suporte à próxima geração de aplicativos de IA e trilhar o caminho para o futuro da inovação gerada por IA em todos os setores. 

    Tabela de soluções.

    Topologia Produto Modelo de resiliência Capacidade bruta Capacidade utilizável Especificação detalhada
    Expansão horizontal SBB híbrido; Paridade tripla 2.039 TB brutos 1.512 TB úteis link
    Expansão horizontal SBB totalmente flash Dupla paridade (4d+2p) 737 TB brutos 553 TB úteis link
    Expansão vertical Hyper totalmente flash EC2k+2m/REP3 1.106 TB brutos 533 TB úteis link
    Expansão vertical 4U/36 EC4K+2m/REP3 3.974 TB brutos 2.513 TB úteis link
    Expansão vertical 4U/36 EC8K+3m/REP3 8.342 TB brutos 5.786 TB úteis link
    Expansão vertical Carregamento superior de nó duplo EC8K+3m/REP3 1.198 1TB brutos 8.406 TB úteis link


    Acrônimos e informações adicionais.

    SBB: Baia de ponte de armazenamento.
    EC: Codificação de apagamento
    “Paridade dupla” e “paridade tripla” se referem ao número de blocos de paridade usados para fornecer redundância de dados e tolerância a falha.
    As cadeias numéricas referem-se ao modelo de resiliência.