BLOG

Almacenamiento y cómputo: necesidades en tándem para los flujos de trabajo de IA.

Las unidades de disco duro y SSD se unen a las GPU, CPU, HBM y DRAM como componentes vitales en las aplicaciones de IA.

Contenido

storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image

La adopción de aplicaciones de inteligencia artificial (IA) sigue creciendo en todo el mundo. Al mismo tiempo, se están acelerando rápidamente las capacidades de las soluciones de TI que posibilitan la IA. Una innovación sin precedentes está por llegar.

Actualmente, el lado del procesador (lógico) recibe la mayor parte de la atención de los líderes empresariales y los inversores por su contribución a la IA. Sin duda, los procesadores son esenciales para la IA y la computación de alto rendimiento. Pero el éxito de la IA no depende únicamente del rendimiento de cómputo y de alta velocidad. Igualmente importante es que las aplicaciones de IA también dependen del almacenamiento de datos, que proporciona un repositorio inicial de datos sin procesar, permite la creación de puntos de control que generan confianza en los flujos de trabajo de IA y almacena inferencias y los resultados del análisis de IA.

Cualquier implementación exitosa de IA requiere una sinergia de recursos de cómputo y de almacenamiento de datos.

A medida que los grandes centros de datos amplían sus capacidades de IA, se hace más claro cómo las aplicaciones de IA no dependen únicamente del aspecto computacional de una arquitectura de centro de datos de IA. El clúster de cómputo incluye procesadores con alto rendimiento, memoria de gran ancho de banda (HBM), memoria de acceso aleatorio dinámica (DRAM) y unidades de estado sólido (SSD) locales de rápido rendimiento, que forman el potente motor para el entrenamiento de IA. Los componentes del clúster de cómputo son locales, generalmente uno al lado del otro, porque cualquier distancia adicional podría introducir problemas de latencia y rendimiento.

Las aplicaciones de IA también dependen del clúster de almacenamiento, que incluye discos duros de red de alta capacidad y unidades SSD de red (pensados ​​para tener mayor capacidad en comparación con las unidades SSD locales de mayor rendimiento en el clúster de cómputo). El clúster de almacenamiento está en red (distribuido), porque hay menos preocupación por la velocidad del rendimiento del almacenamiento a escala. La distancia de los componentes es un factor menor en su ecuación de latencia total, en comparación con la del clúster de cómputo, donde la latencia esperada puede ser de nanosegundos. Los datos finalmente fluyen al clúster de almacenamiento, que consiste principalmente en unidades de disco duro de capacidad masiva para la retención a largo plazo.

Este artículo examina cómo el cómputo y el almacenamiento funcionan juntos en múltiples fases de un flujo de trabajo de IA típico.

Rendimiento y escalabilidad para IA.

Algunas tecnologías en los flujos de trabajo de la IA son más eficaces y otras más escalables, pero cada una es parte integral del proceso. La memoria en el dispositivo tiene un alto rendimiento, y se compone normalmente de HBM o DRAM conectados a procesadores: unidades de procesamiento gráfico (GPU) y unidades de procesamiento central (CPU) o unidades de procesamiento de datos (DPU). Las DPU son motores funcionales de descarga, conectados a las CPU, que ayudan con tareas específicas. Algunas arquitecturas las usan, mientras que otras no. El alto rendimiento de la memoria permite la ingesta eficiente de datos y aspectos de entrenamiento de modelos de IA.

La baja latencia y la capacidad suficiente de las unidades SSD permiten una inferencia rápida y un acceso frecuente al contenido almacenado. En la arquitectura del centro de datos de IA, las unidades SSD locales de rendimiento rápido se incluyen en el clúster de cómputo, cerca de los procesadores y la memoria. Las unidades SSD locales suelen ejecutar una memoria de celda de triple nivel y también tienen una alta durabilidad, pero suelen ser más caras que las unidades SSD de red y no tienen la misma alta capacidad.

Las unidades SSD de red, con una mayor capacidad de almacenamiento de datos en comparación con las unidades SSD locales, se incluyen en el clúster de almacenamiento, con otras responsabilidades específicas en todo el flujo de trabajo de una aplicación de IA. Su velocidad de rendimiento no coincide con la velocidad de las unidades SSD locales. Las unidades SSD de red son comparativamente menos duraderas en escrituras de unidad por día, pero lo compensan con una mayor capacidad.

Las unidades de disco duro de red, que también forman parte del clúster de almacenamiento de la arquitectura del centro de datos de IA, son los dispositivos de TI más escalables y eficientes en los flujos de trabajo de IA. Estos dispositivos tienen velocidades de acceso comparativamente moderadas, pero una capacidad muy alta, lo que es perfecto para instancias que no requieren un acceso rápido y frecuente.

El bucle infinito de la IA.

Los flujos de trabajo de IA operan en un bucle infinito de consumo y creación, que requiere no solo procesadores y memoria que permitan el procesamiento, sino también componentes de almacenamiento. Los pasos interrelacionados de un flujo de trabajo de IA incluyen obtener datos, entrenar modelos, crear contenido, almacenar contenido, preservar datos y reutilizar datos. Veamos los roles que desempeñan el cómputo y el almacenamiento en estas etapas.

Paso 1: datos de origen.

La etapa de origen de datos implica la definición, el descubrimiento y la preparación de datos para el análisis de IA.

Computación: Las GPU desempeñan un papel fundamental en la etapa de origen de datos al promover el preprocesamiento y la transformación de datos de alta velocidad. Complementan las CPU, ejecutando cálculos repetitivos en paralelo mientras la aplicación principal se ejecuta en la CPU. La CPU actúa como una unidad principal, gestionando múltiples tareas informáticas de propósito general mientras la GPU realiza un conjunto más pequeño de tareas más especializadas.

Almacenamiento: En la etapa del origen de datos, tanto las unidades SSD de red como los discos duros de red se utilizan para almacenar las grandes cantidades de datos necesarios para crear algo nuevo. Las unidades SSD de red actúan como un nivel de datos de acceso inmediato, lo que ofrece un rendimiento más rápido. Las unidades de disco duro de red proporcionan una capacidad amplia, densa y escalable, y también proporcionan a los datos sin procesar retención y protección de datos a largo plazo.

Paso 2: entrenar a los modelos.

En el paso de entrenamiento del modelo , el modelo aprende de los datos almacenados. La capacitación es un proceso de prueba y error en el que un modelo converge y se protege con puntos de control. La capacitación requiere acceso a datos de gran velocidad.

Cómputo: Las GPU son fundamentales durante la etapa de entrenamiento del modelo, donde sus capacidades de procesamiento paralelo les permiten manejar las cargas computacionales masivas involucradas en el aprendizaje profundo. El entrenamiento de IA implica miles de multiplicaciones de matrices, que las GPU manejan simultáneamente, acelerando el proceso y haciendo posible entrenar modelos complejos con miles de millones de parámetros. Las CPU funcionan junto con las GPU, organizando el flujo de datos entre la memoria y los recursos de cómputo. Las CPU gestionan tareas como la preparación de lotes y la gestión de colas, de modo que los datos correctos se introducen en las GPU en los momentos correctos. También se encargan de la optimización de los hiperparámetros del modelo, realizando cálculos que pueden no requerir la potencia de procesamiento paralelo de las GPU.

En el entrenamiento de modelos, HBM y DRAM son esenciales para un acceso rápido a los datos, manteniendo los conjuntos de datos activos cerca de los procesadores. HBM, que normalmente está integrado en las GPU, aumenta significativamente la velocidad a la que se pueden procesar los datos al mantener los datos utilizados con más frecuencia accesibles a las GPU durante el entrenamiento.

Las unidades SSD locales sirven como almacenamiento de acceso rápido para los conjuntos de datos utilizados en esta etapa. Almacenan resultados de entrenamiento intermedios y permiten la recuperación rápida de grandes conjuntos de datos. Son particularmente útiles para entrenar modelos que requieren acceso rápido a grandes cantidades de datos, como modelos de reconocimiento de imágenes que involucran millones de imágenes.

Almacenamiento: Los discos duros almacenan de forma económica las grandes cantidades de datos necesarias para entrenar modelos de IA. Además de proporcionar la capacidad escalable necesaria, los discos duros ayudan a mantener la integridad de los datos, almacenando y protegiendo las versiones replicadas del contenido creado. Las unidades de disco duro son rentables en comparación con otras opciones de almacenamiento, ya que proporcionan un almacenamiento confiable a largo plazo y preservan y administran grandes conjuntos de datos de manera eficiente.

Entre otras cosas, las unidades de disco duro y las unidades SSD de red almacenan puntos de control para proteger y perfeccionar el entrenamiento de los modelos. Los puntos de control son instantáneas guardadas del estado de un modelo en momentos específicos durante el entrenamiento, el ajuste y la adaptación. Estas instantáneas se pueden utilizar más adelante para probar la propiedad intelectual o mostrar cómo el algoritmo llegó a sus conclusiones. Cuando se usan unidades SSD en los puntos de control, estos se escriben en un intervalo rápido (es decir, cada minuto) debido a su acceso de baja latencia. Sin embargo, esos datos normalmente se sobrescriben después de un corto periodo de tiempo debido a su pequeña capacidad en comparación con los discos duros. Por el contrario, los puntos de control guardados en el disco duro normalmente se escriben a un intervalo más lento (por ejemplo, cada cinco minutos), pero se pueden conservar casi de forma perpetua debido a la capacidad escalable del disco duro.

Paso 3: creación de contenido.

La fase de creación de contenido implica el proceso de inferencia que utiliza el modelo entrenado para crear resultados.

Computación: Durante la creación de contenido, las GPU ejecutan las tareas de inferencia de IA y aplican el modelo entrenado a las nuevas entradas de datos. Este paralelismo permite que las GPU realicen múltiples inferencias simultáneamente, lo que las hace indispensables para aplicaciones en tiempo real como la generación de video o los sistemas de IA conversacionales. Mientras que las GPU dominan las tareas de cómputo durante la creación de contenido, las CPU son cruciales para administrar la lógica de control y ejecutar cualquier operación que requiera procesamiento en serie. Esto incluye generar scripts, manejar entradas de usuario y ejecutar tareas en segundo plano de menor prioridad que no necesitan el alto rendimiento de una GPU.

El paso de creación de contenido utiliza HBM y DRAM. La memoria juega un papel crucial aquí en el acceso a los datos en tiempo real, almacenando fugazmente los resultados de las inferencias de IA y retroalimentándolos al modelo para un mayor refinamiento. La DRAM de alta capacidad permite múltiples iteraciones de creación de contenido sin ralentizar el flujo de trabajo, especialmente en aplicaciones como la generación de video o el procesamiento de imágenes en tiempo real.

Durante la creación de contenido, las unidades SSD locales proporcionan las rápidas velocidades de lectura/escritura necesarias para el procesamiento en tiempo real. Ya sea que la IA genere nuevas imágenes, videos o texto, las unidades SSD permiten que el sistema gestione operaciones de E/S frecuentes y de alta velocidad sin cuellos de botella, lo que garantiza que el contenido se produzca rápidamente.

Almacenamiento: Los principales habilitadores de almacenamiento de esta creación iterativa son HBM, DRAM y las unidades SSD locales.

Paso 4: almacenamiento de contenido.

En la etapa de almacenamiento de contenido, los datos recién creados se guardan para un refinamiento continuo, control de calidad y cumplimiento.

Computación:
Aunque no participan directamente en el almacenamiento a largo plazo, las GPU y las CPU pueden ayudar a comprimir o cifrar datos mientras se preparan para el almacenamiento. Su capacidad para procesar rápidamente grandes volúmenes de datos significa que el contenido está listo para que se archive sin demora. La memoria se utiliza como caché temporal antes de que los datos se trasladen al almacenamiento a largo plazo. DRAM acelera las operaciones de escritura y guarda el contenido generado por IA de forma rápida y eficiente. Esto es especialmente importante en aplicaciones de IA en tiempo real, donde los retrasos en el almacenamiento de datos podrían generar cuellos de botella.

Almacenamiento: La etapa de almacenamiento de contenido depende de que tanto las unidades SSD de red como los discos duros de red guarden los datos para el refinamiento continuo, el control de calidad y el cumplimiento. Las unidades SSD de red proporcionan un nivel de datos que coincide con la velocidad y se utilizan para el almacenamiento a corto plazo y de alta velocidad de contenido generado por IA. Dada su menor capacidad en comparación con los discos duros, las unidades SSD generalmente almacenan contenido al que se accede con frecuencia o contenido que debe estar inmediatamente disponible para su edición y perfeccionamiento.

El proceso de iteración da lugar a datos nuevos y validados que necesitan almacenamiento. Estos datos se guardan para perfeccionamiento continuo, control de calidad y cumplimiento. Las unidades de disco duro almacenan y protegen las versiones replicadas del contenido creado y proporcionan la capacidad crítica para almacenar el contenido generado durante los procesos de la IA. Son especialmente adecuadas para esto porque ofrecen una alta capacidad de almacenamiento a un costo relativamente bajo en comparación con otras opciones de almacenamiento como las unidades SSD.

Paso 5: conservación de datos.

En la etapa de preservación de datos , los conjuntos de datos replicados se conservan en todas las regiones y entornos. En esta etapa se suelen utilizar recursos de almacenamiento.

Almacenamiento: Los datos almacenados son la columna vertebral de una IA confiable, lo que permite a los científicos de datos garantizar que los modelos funcionen como se espera. Las unidades SSD de red se utilizan como un sellador de rendimiento para conectar las unidades de disco duro a la capa SSD local y ayudar a que los datos se muevan por el ecosistema.

Las unidades de disco duro son las principales habilitadoras de datos que necesitan almacenamiento y protección de datos a más largo plazo. Ayudan a mantener los resultados de la creación de contenido de IA, almacenando de forma segura el contenido generado, de modo que se pueda acceder a él cuando sea necesario. También proporcionan la escalabilidad necesaria para gestionar los crecientes volúmenes de datos de manera eficiente.

Paso 6: reutilización de datos.

Finalmente, en la etapa de reutilización de datos, los datos de origen, entrenamiento e inferencia se aplican a la siguiente iteración del flujo de trabajo.

Computación: Las GPU desempeñan un papel importante en la fase de reutilización de datos al volver a ejecutar modelos en conjuntos de datos archivados para obtener nuevas inferencias o entrenamiento adicional, lo que permite que el ciclo de datos de IA comience nuevamente. Su capacidad para realizar cálculos paralelos en grandes conjuntos de datos permite que los sistemas de IA mejoren continuamente la precisión del modelo con una inversión mínima de tiempo. Las CPU consultan y recuperan datos almacenados para su reutilización. Filtran y procesan eficientemente datos históricos, devolviendo porciones relevantes a los modelos de entrenamiento. En los sistemas de IA a gran escala, las CPU a menudo realizan estas tareas mientras gestionan las interacciones entre los sistemas de almacenamiento y los clústeres de cómputo.

Cuando se recuperan datos históricos para reutilizarlos en otra iteración del análisis del modelo de IA, la memoria garantiza un acceso rápido a grandes conjuntos de datos. HBM permite la carga rápida de conjuntos de datos en la memoria de la GPU, donde pueden usarse inmediatamente para reentrenamiento o inferencias en tiempo real.

Almacenamiento: Los resultados de contenido retroalimentan el modelo, mejorando la precisión y habilitando nuevos modelos. Las unidades de disco duro y SSD de red admiten la creación de datos de IA dispersos geográficamente. Los conjuntos de datos sin procesar y los resultados se convierten en fuentes para nuevos flujos de trabajo. Las unidades SSD aceleran la recuperación de datos almacenados previamente. Su acceso de baja latencia promueve la rápida reintegración de estos datos en los flujos de trabajo de IA, lo que reduce los tiempos de espera y aumenta la eficiencia general del sistema. Las unidades de disco duro cumplen con los requisitos de almacenamiento de capacidad masiva de la etapa de reutilización de datos de IA, lo que permite implementar la iteración posterior del modelo a un costo razonable.

El almacenamiento es la columna vertebral de la IA.

Como hemos visto, los flujos de trabajo de la IA requieren procesadores de alto rendimiento, así como soluciones de almacenamiento de datos. La memoria en el dispositivo y las unidades SSD tienen su lugar en las aplicaciones de IA debido a su rendimiento de alta velocidad, lo que permite una rápida inferencia. Pero nos gusta pensar en las unidades de disco duro como la columna vertebral de la IA. Son especialmente importantes dada su escalabilidad económica, imprescindible en muchos flujos de trabajo de IA.

Los discos duros Seagate con tecnología Mozaic 3+™, nuestra implementación única de tecnología de grabación magnética asistida por calor (HAMR, por sus siglas en inglés), son una opción poderosa para aplicaciones de IA debido a sus beneficios de densidad de área, eficiencia y optimización del espacio. Ofrecen una densidad de área sin precedentes de más de 3 TB por placa, actualmente disponibles en capacidades a partir de 30 TB y con envíos en volumen a clientes de hiperescala. Seagate ya está probando la plataforma Mozaic con 4 TB+ y 5 TB+ por placa.

En comparación con los discos duros de grabación magnética perpendicular (PMR, por sus siglas en inglés) de la generación actual, los discos duros Mozaic 3+ requieren cuatro veces menos energía operativa y emiten diez veces menos carbono incorporado por terabyte.

En las cargas de trabajo de IA, el cómputo y el almacenamiento trabajan en conjunto. El procesamiento y la memoria centrados en el cómputo, así como las unidades SSD de alto rendimiento, son esenciales en las aplicaciones de IA. También lo son las soluciones de almacenamiento de datos escalables de gran capacidad, con los discos duros Seagate a la vanguardia.