BLOG

Armazenamento e computação: necessidades conjuntas para fluxos de trabalho de IA.

Discos rígidos e SSDs se juntam a GPUs, CPUs, HBM e DRAM como componentes vitais em aplicações de IA.

Índice

storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image

A adesão às aplicações da inteligência artificial (IA) continua a crescer em todo o mundo. Ao mesmo tempo, os recursos das soluções de TI que possibilitam a IA estão acelerando rapidamente. Inovação sem precedentes vem a seguir.

Atualmente, o lado do processador (lógico) recebe a maior parte da atenção de líderes corporativos e investidores por sua contribuição à IA. Na verdade, os processadores são essenciais para a IA e a computação de alto desempenho. Mas o sucesso da IA não depende apenas de computação e desempenho de alta velocidade. Tão importante quanto isso, as aplicações de IA também dependem de armazenamento de dados, que fornece um repositório inicial de dados brutos, permite pontos de verificação que criam confiança em fluxos de trabalho de IA e armazena inferências e os resultados da análise de IA.

Qualquer implementação de IA bem-sucedida exige uma sinergia de recursos de computação e armazenamento de dados.

À medida que os data centers grandes expandem seus recursos de IA, fica mais claro como as aplicações de IA não dependem unicamente do lado computacional de uma arquitetura de data center com IA. O cluster de computação é composto por processadores com memória de largura de banda alta (HBM), memória dinâmica de acesso aleatório (DRAM) e unidades de estado sólido (SSDs) locais de desempenho rápido, criando um mecanismo poderoso para o treinamento de IA. Os componentes do cluster de computação são locais, geralmente um ao lado do outro, porque qualquer distância adicionada poderia introduzir problemas de desempenho e latência.

As aplicações de IA também dependem do cluster de armazenamento, que inclui discos rígidos de rede de alta capacidade e SSDs de rede (significando ter capacidade mais alta em comparação com os SSDs locais de maior desempenho no cluster de computação). O cluster de armazenamento está em rede (distribuído), porque há menos preocupação com a velocidade de desempenho do armazenamento em grande escala. A distância dos componentes é um fator menor em sua equação de latência total, se comparada à do cluster de computação, onde a latência esperada pode estar na escala dos nanossegundos. Por fim, os dados passam para o cluster de armazenamento, que consiste predominantemente em discos rígidos de capacidade massiva para retenção de longo prazo.

Este artigo examina como a computação e o armazenamento funcionam juntos em várias fases de um fluxo de trabalho de IA típico.

Desempenho e escalabilidade para IA.

Algumas tecnologias nos fluxos de trabalho de IA têm um desempenho mais alto e outras são mais escaláveis, mas cada uma é parte integrante do processo. A memória interna do dispositivo é de alto desempenho e costuma ser composta de HBM ou DRAM conectada a processadores — unidades de processamento gráfico (GPUs) e unidades de processamento central (CPUs) ou unidades de processamento de dados (DPUs). DPUs são mecanismos funcionais de descarregamento, instalados em CPUs, que ajudam em tarefas específicas. Algumas arquiteturas as utilizam, outras não. O alto throughput da memória possibilita a ingestão de dados eficiente e aspectos de treinamento de modelo da IA.

A baixa latência e capacidade suficiente dos SSDs permitem inferência rápida e acesso frequente ao conteúdo armazenado. Na arquitetura de data center com IA, os SSDs locais de alto desempenho são incluídos no cluster de computação, perto dos processadores e da memória. Os SSDs locais costumam executar uma memória de célula de nível triplo e também têm alta durabilidade, mas costumam ser mais caros do que os SSDs de rede e não têm a mesma capacidade alta.

Os SSDs de rede, com capacidade de armazenamento de dados mais alta em comparação com os SSDs locais, são incluídos no cluster de armazenamento, com outras responsabilidades específicas em todo o fluxo de trabalho de uma aplicação de IA. Sua velocidade de desempenho não corresponde à velocidade dos SSDs locais. Os SSDs de rede são comparativamente menos duráveis em gravações de disco por dia, mas compensam isso com sua capacidade maior.

Os discos rígidos de rede, também parte do cluster de armazenamento da arquitetura de data center de IA, são os dispositivos de TI mais escaláveis e eficientes em fluxos de trabalho de IA. Esses dispositivos têm velocidades de acesso comparativamente moderadas, mas capacidade muito alta, o que é perfeito para instâncias que não exigem acesso rápido frequente.

O loop infinito da IA.

Os fluxos de trabalho de IA operam em um loop infinito de consumo e criação, exigindo não só processadores e memória que habilitem a computação, mas também componentes de armazenamento. As etapas inter-relacionadas de um fluxo de trabalho de IA incluem obter dados, treinar modelos, criar conteúdo, armazenar conteúdo, preservar e reutilizar dados. Vamos analisar as funções que a computação e o armazenamento desempenham nesses estágios.

Etapa 1: obter dados.

O estágio de obtenção de dados envolve a definição, a descoberta e a preparação dos dados para a análise de IA.

Computação: As GPUs têm um papel fundamental no estágio de obtenção de dados ao promover o pré-processamento e a transformação de dados em alta velocidade. Elas complementam as CPUs, executando cálculos repetitivos em paralelo enquanto a aplicação principal é executada na CPU. A CPU atua como uma unidade primária, gerenciando várias tarefas computacionais de uso geral, enquanto a GPU realiza um conjunto menor de tarefas mais especializadas.

Armazenamento: No estágio de obtenção de dados, as duas SSDs de rede e discos rígidos de rede são usados para armazenar as enormes quantidades de dados necessários para criar algo novo. Os SSDs de rede agem como uma camada de dados acessível imediatamente, oferecendo desempenho mais rápido. Os discos rígidos de rede fornecem capacidade espaçosa, densa e escalável, e também fornecem dados brutos com retenção e proteção de dados de longo prazo.

Etapa 2: treinar modelos.

Na etapa de treinamento de modelo, o modelo aprende com os dados armazenados. Treinamento é um processo de tentativa e erro no qual um modelo converge e é protegido com pontos de verificação. O treinamento requer alta velocidade de acesso a dados.

Computação: As GPUs são cruciais durante o estágio de treinamento do modelo, em que seus recursos de processamento paralelo permitem lidar com as cargas computacionais massivas envolvidas no aprendizado profundo. O treinamento de IA envolve milhares de multiplicações de matrizes, que as GPUs lidam simultaneamente, acelerando o processo e possibilitando o treinamento de modelos complexos com bilhões de parâmetros. As CPUs funcionam com GPUs, orquestrando o fluxo de dados entre a memória e os recursos de computação. As CPUs gerenciam tarefas como preparação de lotes e gerenciamento de filas, para que os dados certos sejam alimentados nas GPUs nos momentos corretos. Elas também tratam da otimização dos hiperparâmetros do modelo, executando cálculos que podem não exigir o poder de processamento paralelo das GPUs.

No treinamento de modelo, HBM e DRAM são essenciais para o acesso rápido a dados, mantendo os conjuntos de dados ativos próximos dos processadores. O HBM, que geralmente é integrado a GPUs, aumenta significativamente a velocidade na qual os dados podem ser processados, mantendo os dados usados com mais frequência acessíveis às GPUs durante o treinamento.

SSDs locais servem como armazenamento de acesso rápido para os conjuntos de dados usados nesse estágio. Eles armazenam resultados de treinamento intermediários e permitem a recuperação rápida de conjuntos de dados grandes. Eles são especialmente úteis para modelos de treinamento que requerem acesso rápido a grandes quantidades de dados, como modelos de reconhecimento de imagem envolvendo milhões de imagens.

Armazenamento: Os discos rígidos armazenam economicamente as grandes quantidades de dados necessários para treinar modelos de IA. Além de fornecer a capacidade escalável necessária, os discos rígidos ajudam a manter a integridade dos dados — armazenar e proteger as versões replicadas do conteúdo criado. Discos rígidos são econômicos em comparação com outras opções de armazenamento, fornecendo armazenamento confiável de longo prazo e preservando e gerenciando grandes conjuntos de dados de maneira eficiente.

Entre outras coisas, discos rígidos de rede e SSDs de rede armazenam pontos de verificação para proteger e refinar o treinamento de modelo. Pontos de verificação, são, basicamente, instantâneos salvos do estado de um modelo em momentos específicos durante o treinamento, ajuste e adaptação. Esses instantâneos podem ser usados mais tarde para comprovar propriedade intelectual ou mostrar como o algoritmo chegou a essas conclusões. Quando SSDs são usados na criação de pontos de verificação, os pontos de verificação são gravados em um intervalo rápido (ou seja, a cada minuto) devido ao seu acesso de baixa latência. Entretanto, esses dados costumam ser sobrescritos após um período curto devido à sua pequena capacidade em comparação com os discos rígidos. Por outro lado, os pontos de verificação de disco rígido salvos costumam ser gravados em um intervalo mais lento (por exemplo, a cada cinco minutos), mas podem ser mantidos quase indefinidamente devido à capacidade escalável do disco rígido.

Etapa 3: criar conteúdo.

A fase de criação de conteúdo envolve o processo de inferência que usa o modelo treinado para criar saídas.

Computação: Durante a criação de conteúdo, as GPUs executam as tarefas de inferência de IA, aplicando o modelo treinado a novas entradas de dados. Esse paralelismo permite que as GPUs realizem várias inferências simultaneamente, tornando-as indispensáveis para aplicações em tempo real, como geração de vídeo ou sistemas de IA de conversação. Embora as GPUs dominem as tarefas computacionais durante a criação de conteúdo, as CPUs são cruciais para o gerenciamento da lógica de controle e a execução de quaisquer operações que exijam processamento serial. Isso inclui gerar scripts, lidar com entradas de usuário e executar tarefas em segundo plano de prioridade mais baixa que não precisam do alto throughput de uma GPU.

A etapa de criação de conteúdo usa HBM e DRAM. A memória tem um papel crucial aqui no acesso a dados em tempo real, armazenando rapidamente os resultados das inferências de IA e alimentando-os de volta ao modelo para refinamento adicional. A DRAM de alta capacidade permite várias iterações de criação de conteúdo sem deixar o fluxo de trabalho mais lento, principalmente em aplicações como geração de vídeo ou processamento de imagem em tempo real.

Durante a criação de conteúdo, os SSDs locais fornecem as velocidades de leitura/gravação rápidas necessárias para o processamento em tempo real. Não importa se a IA está gerando novas imagens, vídeos ou texto, os SSDs possibilitam que o sistema lide com operações de E/S frequentes e de alta velocidade sem gargalos, garantindo que o conteúdo seja produzido rapidamente.

Armazenamento: Os viabilizadores de armazenamento primário da etapa de criação são HBM, DRAM e SSDs locais.

Etapa 4: armazenar conteúdo

No estágio de armazenamento de conteúdo, os dados recém-criados são salvos para refinamento, garantia de qualidade e conformidade contínuos.

Computação:
Embora não estejam diretamente envolvidos no armazenamento de longo prazo, as GPUs e CPUs podem ajudar na compressão ou criptografia de dados durante a sua preparação para o armazenamento. Sua capacidade de processar rapidamente grandes volumes de dados significa que o conteúdo está pronto para arquivamento sem atraso. A memória é usada como um cache temporário antes dos dados serem movidos para o armazenamento de longo prazo. A DRAM acelera as operações de gravação, salvando o conteúdo gerado por IA de forma rápida e eficiente. Isso é importante principalmente em aplicações de IA em tempo real, nas quais atrasos no armazenamento de dados podem criar gargalos.

Armazenamento: O estágio de armazenamento de conteúdo depende de SSDs de rede e discos rígidos de rede salvarem dados para aprimoramento, garantia de qualidade e conformidade contínuos. Os SSDs de rede fornecem uma camada de dados com velocidade compatível e são usados para o armazenamento de curto prazo e alta velocidade de conteúdo gerado por IA. Devido à capacidade mais baixa em comparação com os discos rígidos, os SSDs costumam armazenar conteúdo acessado com frequência ou conteúdo que deve estar disponível imediatamente para edição e refino.

O processo de iteração dá origem a novos dados validados que precisam de armazenamento. Esses dados são salvos para refinamento, garantia de qualidade e conformidade contínuos. Os discos rígidos armazenam e protegem as versões replicadas do conteúdo criado e fornecem a capacidade crucial para armazenar o conteúdo gerado durante os processos de IA. Eles são apropriados especialmente para isso, pois oferecem alta capacidade de armazenamento a um custo relativamente baixo em comparação com outras opções de armazenamento, como os SSDs.

Etapa 5: preservar dados.

No estágio de preservação de dados, os conjuntos de dados replicados são retidos entre regiões e ambientes. Os recursos de armazenamento costumam ser usados nesse estágio.

Armazenamento: Os dados armazenados são a base de uma IA confiável, permitindo que os cientistas de dados garantam que os modelos estejam agindo conforme o esperado. Os SSDs de rede são usados como uma junção intermediária de desempenho para conectar os discos rígidos à camada de SSD local e ajudar na movimentação dos dados pelo ecossistema.

Os discos rígidos são os principais viabilizadores de dados que necessitam de armazenamento de longo prazo e proteção. Eles ajudam a manter os resultados da criação de conteúdo com IA, armazenando com segurança o conteúdo gerado para que ele possa ser acessado quando necessário. Eles também fornecem a escalabilidade necessária para lidar com volumes crescentes de dados de forma eficiente.

Etapa 6: reutilizar dados.

Por fim, no estágio de reutilização de dados os dados de origem, treinamento e inferência são aplicados na próxima iteração do fluxo de trabalho.

Computação: As GPUs desempenham um papel significativo na fase de reutilização de dados ao executar novamente os modelos em conjuntos de dados arquivados para novas inferências ou treinamento adicional, permitindo que o ciclo de dados de IA seja reiniciado. Sua capacidade de realizar computações paralelas em grandes conjuntos de dados permite que os sistemas de IA aprimorem continuamente a precisão do modelo com investimento de tempo mínimo. As CPUs consultam e recuperam dados armazenados para reutilização. Elas filtram e processam dados históricos com eficiência, alimentando porções relevantes de volta aos modelos de treinamento. Em sistemas de IA de grande escala, as CPUs costumam executar essas tarefas ao mesmo tempo em que gerenciam as interações entre os sistemas de armazenamento e clusters de computação.

Quando dados históricos são recuperados para reutilização em outra iteração de análise do modelo de IA, a memória garante o acesso rápido a grandes conjuntos de dados. O HBM possibilita o carregamento rápido de conjuntos de dados na memória da GPU, onde podem ser usados imediatamente para retreinamento ou inferência em tempo real.

Armazenamento: As saídas de conteúdo retroalimentam o modelo, aprimorando sua precisão e possibilitando novos modelos. Discos rígidos e SSDs de rede possibilitam a criação de dados de IA dispersos geograficamente. Conjuntos de dados e resultados brutos tornam-se fontes para novos fluxos de trabalho. Os SSDs aceleram a recuperação de dados armazenados anteriormente. Seu acesso de baixa latência promove a rápida reintegração desses dados nos fluxos de trabalho de IA, reduzindo os tempos de espera e aumentando a eficiência geral do sistema. Os discos rígidos atendem aos requisitos de armazenamento de capacidade massiva do estágio de reutilização de dados de IA, permitindo que a iteração subsequente do modelo seja implementada por um custo razoável.

O armazenamento é a base da IA.

Como vimos, os fluxos de trabalho de IA exigem processadores de alto desempenho, bem como soluções de armazenamento de dados. A memória no dispositivo e os SSDs têm seu lugar nas aplicações de IA devido ao seu desempenho de alta velocidade, que permite inferências rápidas. Mas gostamos de pensar nos discos rígidos como a espinha dorsal da IA. Eles são especialmente importantes devido à sua escalabilidade econômica, um item obrigatório em muitos fluxos de trabalho de IA.

Os discos rígidos da Seagate com tecnologia Mozaic 3+™, nossa implementação exclusiva da tecnologia HAMR (gravação magnética assistida por calor), são uma opção poderosa para aplicações de IA devido à sua densidade de área, eficiência e benefícios de otimização de espaço. Eles fornecem uma densidade de área sem precedentes, de mais de 3 TB por prato, atualmente disponíveis com capacidades a partir de 30 TB e sendo fornecidos em grande volume para clientes de hiperescala. A Seagate já está testando a plataforma Mozaic alcançando mais de 4 TB e 5 TB por prato.

Em comparação com os discos rígidos de gravação magnética perpendicular (PMR) de geração atual, os discos rígidos Mozaic 3+ requerem quatro vezes menos energia operacional e emitem dez vezes menos carbono incorporado por terabyte.


Em cargas de trabalho de IA, a computação e o armazenamento funcionam em conjunto. O processamento e a memória centrados em computação, bem como SSDs de alto desempenho, são essenciais nas aplicações de IA. O mesmo acontece com as soluções de armazenamento de dados de capacidade massiva escaláveis, com os discos rígidos da Seagate liderando o caminho.