Os dados de IA fluem em um loop infinito.

Esse ciclo virtuoso possibilita a criação e iteração contínuas, refinando os modelos à medida que eles são executados.

O loop infinito de dados de IA.

A IA consome e cria dados. Na verdade, os modelos de IA evoluem com o uso de dados confiáveis, tanto os gerados pelo próprio modelo quanto os de novas fontes de dados. Esse loop infinito de produção e consumo de dados leva a aplicações mais inteligentes e resultados melhores.

Isso altera fundamentalmente o valor dos dados e como os usamos. Armazenar mais dados nesse loop infinito cria uma IA melhor.

Os dados são essenciais para a IA em todas as etapas.

Junto com as fontes de dados recém-capturadas, cada resposta, conteúdo ou artefato que a IA gera torna-se parte da entrada para a próxima rodada de treinamento, levando a um ciclo contínuo de melhoria dos resultados. Em implantações de data center de grande escala, as seis fases do loop de dados de IA são possibilitadas por uma combinação de dispositivos de armazenamento e memória

1. DADOS DE ORIGEM

Tudo isso começa com a definição, a localização e a preparação dos dados.

O conjunto de dados pode ser qualquer coisa, desde um pequeno banco de dados estruturado até a própria Internet. Os discos rígidos de rede fornecem dados brutos com retenção de longo prazo e proteção de dados. Os SSDs de rede agem como uma camada de dados acessível imediatamente.

2. TREINAR MODELOS

Em seguida, o modelo aprende treinando com os dados armazenados.

Treinamento é um processo de tentativa e erro no qual um modelo converge e é protegido com pontos de verificação. O treinamento requer alta velocidade de acesso a dados. Essa fase de computação intensa usa HBM, DRAM e SSDs locais para a aprendizagem. Discos rígidos e SSDs de rede armazenam pontos de verificação para proteger e refinar o treinamento de modelos.

3. CRIAR CONTEÚDO

O processo de inferência usa o modelo treinado para criar saídas.

Dependendo da aplicação, o modelo pode ser usado para tarefas, como bate-papo, análise de imagem ou criação de vídeo. Os viabilizadores de armazenamento primário dessa criação iterativa são HBM, DRAM e SSDs locais.

4. ARMAZENAR CONTEÚDO

O processo de iteração cria novos dados validados que precisam de armazenamento.

Esses dados são salvos para refinamento, garantia de qualidade e conformidade contínuos. Os discos rígidos armazenam e protegem as versões replicadas do conteúdo criado. Os SSDs de rede fornecem uma camada de dados com velocidade apropriada.

5. PRESERVAR DADOS

Os conjuntos de dados replicados são retidos entre regiões e ambientes.

Os dados armazenados são a base de uma IA confiável, permitindo que os cientistas de dados garantam que os modelos estejam agindo conforme o esperado. Os discos rígidos são os principais viabilizadores de dados que necessitam de armazenamento de longo prazo e proteção. Os SSDs de rede são usados como uma junção intermediária de desempenho para conectar os discos rígidos à camada de SSD local e ajudar na movimentação dos dados pelo ecossistema.

6. REUTILIZAR DADOS

Os dados de origem, do modelo e de inferência alimentam o próximo passo.

As saídas de conteúdo retroalimentam o modelo, aprimorando sua precisão e possibilitando novos modelos. Discos rígidos e SSDs de rede possibilitam a criação de dados de IA dispersos geograficamente. Conjuntos de dados e resultados brutos tornam-se fontes para novos fluxos de trabalho..

As cargas de trabalho de IA requerem vários tipos de armazenamento.

Tecnologias de memória e armazenamento, como DRAM, discos rígidos e SSDs, têm funções cruciais em todo o fluxo de trabalho de dados de IA. Cada etapa requer uma combinação otimizada desses dispositivos para oferecer suporte aos requisitos de desempenho e escalabilidade de cada carga de trabalho.