Los datos de IA fluyen en un bucle infinito,

Este círculo virtuoso permite la creación y la iteración continuas, perfeccionando los modelos a medida que se ejecutan.

El infinito bucle de datos de la IA.

La IA consume y crea datos al mismo tiempo. De hecho, los modelos de la IA mejoran usando datos confiables, tanto los generados por el propio modelo como los de nuevas fuentes de datos. Este bucle infinito de producción y consumo de datos conduce a aplicaciones más inteligentes y mejores resultados.

Esto cambia fundamentalmente el valor de los datos y cómo los usamos. Almacenar más datos en este bucle infinito mejora la IA.

Los datos son una parte integral de la IA en cada paso.

Junto con las nuevas fuentes de datos capturadas, cada respuesta, contenido o artefacto generado por la IA se convierte en parte de la entrada para la siguiente ronda de entrenamiento, lo que impulsa un bucle continuo de mejora en los resultados. En las implementaciones de centros de datos a gran escala, las seis fases del bucle de datos de la IA están habilitadas por una combinación de dispositivos de almacenamiento y memoria

1. OBTENCIÓN DE DATOS

Comienza al definir, encontrar y preparar los datos.

El conjunto de datos puede ser cualquier cosa, desde una pequeña base de datos estructurada hasta Internet. Las unidades de disco duro de red proporcionan datos sin procesar con retención y protección de datos a largo plazo. Las unidades SSD de red actúan como un nivel de datos de acceso inmediato.

2. ENTRENAMIENTO DE MODELOS

A continuación, el modelo aprende mediante la capacitación en los datos almacenados.

La capacitación es un proceso de prueba y error en el que un modelo converge y se protege con puntos de control. La capacitación requiere acceso a datos de gran velocidad. Esta fase de computación intensiva utiliza HBM, DRAM y SSD locales para el aprendizaje. Las unidades de disco duro y SSD de red almacenan puntos de control para proteger y perfeccionar la capacitación de los modelos.

3. CREAR CONTENIDO

El proceso de inferencia utiliza el modelo capacitado para crear resultados de salida.

Dependiendo de la aplicación, el modelo puede usarse para tareas como chats, análisis de imágenes o creación de videos. Los principales habilitadores de almacenamiento de esta creación iterativa son HBM, DRAM y las unidades SSD locales.

4. ALMACENAMIENTO DE CONTENIDO

El proceso de iteración crea datos nuevos y validados que necesitan almacenamiento.

Estos datos se guardan para perfeccionamiento continuo, control de calidad y cumplimiento. Las unidades de disco duro almacenan y protegen las versiones replicadas del contenido creado. Las unidades SSD de red proporcionan un nivel de datos que iguala la velocidad.

5. PRESERVACIÓN DE DATOS

Los conjuntos de datos replicados se conservan en todas las regiones y entornos.

Los datos almacenados son la columna vertebral de una IA fiable, lo que permite a los científicos de datos garantizar que los modelos funcionen como se espera. Las unidades de disco duro son las principales habilitadoras de datos que necesitan almacenamiento y protección de datos a más largo plazo. Las unidades SSD de red se utilizan como un sellador de rendimiento para conectar las unidades de disco duro a la capa SSD local y ayudar a que los datos se muevan por el ecosistema.

6. REUTILIZACIÓN DE DATOS

Los datos de origen, modelo e inferencia impulsan el próximo esfuerzo.

Las salidas de contenido retroalimentan el modelo, lo cual mejora su precisión y permite nuevos modelos. Las unidades de disco duro y SSD de red admiten la creación de datos de IA dispersos geográficamente. Los conjuntos de datos sin procesar y los resultados se convierten en fuentes para nuevos flujos de trabajo..

Las cargas de trabajo de la IA requieren un amplio espectro de almacenamiento.

Las tecnologías de memoria y almacenamiento, como DRAM, unidades de disco duro y SSD desempeñan funciones críticas en todo el flujo de trabajo de datos de la IA. Cada paso requiere una combinación optimizada de estos dispositivos para satisfacer los requisitos de rendimiento y escalabilidad de cada carga de trabajo.