Informe técnico

Arquitectura de almacenamiento avanzada para potenciar la IA en centros de datos.

seagate-supermicro-osnexus

Creada para el futuro de la IA, una solución conjunta de Supermicro, Seagate y OSNexus está diseñada para impulsar tanto la eficiencia como la escalabilidad de la IA.

lectura de minutos

seagate-supermicro-osnexus

Contenido:

    Resumen ejecutivo.

    El ascenso de la inteligencia artificial (IA) ha impulsado una demanda sin precedentes de soluciones de almacenamiento de centros de datos escalables, de alto rendimiento y rentables. Este informe técnico presenta una solución integral que combina el hardware de Supermicro, las unidades de disco duro de Seagate Exos habilitadas por la tecnología Mozaic 3+™ basada en HAMR de Seagate y el software OSNexus QuantaStor. Esta solución conjunta aborda el crecimiento explosivo de las necesidades de almacenamiento de datos impulsadas por la IA, proporcionando una arquitectura robusta que admite configuraciones de escalabilidad vertical y horizontal. Los beneficios clave incluyen una escalabilidad mejorada para adaptarse a las crecientes cargas de trabajo de IA, un rendimiento excepcional con alta producción y baja latencia, rentabilidad optimizada a través de unidades físicas y ahorros de energía reducidos, una plataforma de administración unificada que simplifica las operaciones, funciones de seguridad avanzadas para el cumplimiento y un impacto ambiental reducido a través de soluciones de almacenamiento energéticamente eficientes.

    Introducción.

    La rápida evolución de las tecnologías de IA y aprendizaje automático (ML) ha transformado fundamentalmente el panorama del almacenamiento de datos. Los avances en el poder computacional, el acceso democratizado para los desarrolladores y las herramientas de desarrollo más rápidas han llevado a una explosión de innovación impulsada por la IA. A medida que los modelos de IA se vuelven más avanzados, la necesidad de soluciones de almacenamiento escalables y de alto rendimiento nunca ha sido mayor. Los datos son la columna vertebral de la IA, y la capacidad de almacenar, gestionar y acceder a grandes cantidades de datos de manera eficiente es crucial para entrenar modelos de IA e implementar aplicaciones de IA. Las soluciones de almacenamiento tradicionales a menudo no satisfacen estas demandas, lo que requiere el desarrollo de nuevas arquitecturas adaptadas a las necesidades de las cargas de trabajo de IA.

    Las cargas de trabajo de IA en evolución exigen soluciones de almacenamiento en evolución.

    Las cargas de trabajo de IA presentan desafíos únicos que las soluciones de almacenamiento tradicionales luchan por cumplir. Los modelos de IA requieren grandes cantidades de datos para el entrenamiento, que a menudo alcanzan una escala de petabytes. Estos datos deben ser fácilmente accesibles, ya que la eficiencia del proceso de entrenamiento depende en gran medida de la rápida recuperación de datos. Además, las aplicaciones de IA con frecuencia implican tareas de procesamiento de datos a gran escala que exigen una alta producción y baja latencia para ofrecer información en tiempo real.

    La intensidad computacional de las cargas de trabajo de IA también genera cantidades significativas de metadatos, que deben administrarse de manera eficiente para evitar cuellos de botella. Las soluciones de almacenamiento tradicionales, con su escalabilidad y rendimiento limitados, no son adecuadas para estas demandas. A menudo carecen de la flexibilidad para gestionar cargas de trabajo dinámicas, lo que provoca ineficiencias y un aumento de los costes operativos.

    La innovación impulsada por la IA requiere soluciones de almacenamiento que puedan escalar rápidamente, manejar grandes volúmenes de datos no estructurados y proporcionar un acceso ininterrumpido a estos datos. Por ejemplo, el entrenamiento de un modelo de IA complejo implica el procesamiento iterativo de grandes conjuntos de datos para refinar los algoritmos y mejorar la precisión. El gran volumen de datos requerido para estas iteraciones puede abrumar a los sistemas de almacenamiento tradicionales, causando retrasos y reduciendo la eficiencia general de las operaciones de IA.

    Además, las aplicaciones de la IA se implementan cada vez más en entornos en tiempo real donde el procesamiento de datos inmediato es fundamental. Esto incluye aplicaciones como vehículos autónomos, mantenimiento predictivo y atención médica personalizada. Estos casos de uso requieren soluciones de almacenamiento que no solo ofrezcan una alta capacidad, sino que también ofrezcan un rendimiento excepcional para admitir el análisis de datos y la toma de decisiones instantáneas.

    Compatibilidad con configuraciones de escalabilidad vertical y horizontal.

    La solución conjunta de Supermicro, Seagate y OSNexus combina hardware y software de vanguardia para ofrecer una infraestructura de almacenamiento robusta, escalable y rentable para las cargas de trabajo de IA. Los componentes principales de esta solución incluyen servidores Supermicro y JBOD, unidades de disco duro Seagate Mozaic 3+, unidades SSD Seagate Nytro NVMe y el software OSNexus QuantaStor.

    La arquitectura de la solución conjunta admite configuraciones de escalabilidad vertical y horizontal, lo que satisface las diversas necesidades de implementación.

    La escalabilidad vertical (ampliación) implica aumentar la capacidad de un único sistema de almacenamiento o servidor añadiendo más recursos, como CPU, memoria o unidades de almacenamiento. Este enfoque maximiza el rendimiento de las unidades individuales, pero tiene limitaciones inherentes a la escalabilidad.

    La escalabilidad horizontal (multiplicación), por otro lado, implica añadir más nodos de almacenamiento o servidores a un sistema, distribuyendo la carga de trabajo de trabajo entre varias unidades. Este enfoque permite una escalabilidad prácticamente ilimitada, lo que permite que los sistemas manejen cargas de trabajo de IA más grandes y complejas al expandir la arquitectura sin problemas a medida que crece la demanda.

    Las configuraciones de escalabilidad vertical son ideales para aplicaciones más pequeñas y económicas, ya que ofrecen una producción de hasta 5 a 10 GB/s. Por el contrario, las configuraciones de escalabilidad horizontal están diseñadas para implementaciones más grandes, con escalas de rendimiento linealmente a medida que se incorporan nodos adicionales. Esta escalabilidad permite que la solución alcance cientos de gigabytes por segundo en producción, lo que satisface las demandas de las cargas de trabajo intensivas de IA.

    La perfecta integración de los servidores Supermicro, las unidades Seagate y el software QuantaStor forman una solución de almacenamiento coherente y eficiente. Esta arquitectura admite el almacenamiento de archivos y objetos, lo que proporciona a las organizaciones la flexibilidad de elegir la configuración más adecuada para sus necesidades específicas. La gestión unificada proporcionada por QuantaStor garantiza que todos los componentes funcionen armoniosamente, ofreciendo un rendimiento y una fiabilidad óptimos. La capacidad de gestionar configuraciones de escalabilidad vertical y horizontal dentro de una sola plataforma simplifica las operaciones y reduce la complejidad asociada con el mantenimiento de varios sistemas de almacenamiento.

    Descripción general de la arquitectura.

    La arquitectura incluye servidores Supermicro, unidades de disco duro Seagate Exos Mozaic 3+ y unidades SSD Seagate Nytro NVMe, todas ellas organizadas por el software OSNexus QuantaStor. Esta combinación satisface las intensas demandas de las cargas de trabajo de IA/ML, que requieren una alta producción, baja latencia y la capacidad de gestionar conjuntos de datos masivos de manera eficiente.

    Consideraciones sobre la infraestructura de implementación.

    • Los detalles sobre la red e infraestructura mínimas necesarias para tener éxito están fuera del alcance de este documento, pero son fundamentales para la toma de decisiones de arquitectura.
    • Criterios clave:
      • Velocidad de red (determina el tamaño óptimo de los soportes y los nodos)
      • Especificaciones del bastidor (profundidad del bastidor y espacio en U)
      • Presupuesto de energía y refrigeración

    Arquitecturas de escalabilidad vertical y horizontal

    • Arquitectura de escalabilidad vertical
      • Esta arquitectura es ideal para entornos que requieren almacenamiento rentable y de alta densidad. Utiliza unidades NVMe de doble puerto en la carcasa de 24 bahías de Supermicro, lo que proporciona alta disponibilidad y rendimiento al permitir el acceso compartido a las unidades subyacentes. La arquitectura admite la expansión a través de JBOD, lo que permite conectar hasta cuatro JBOD a los controladores de escalabilidad vertical, y así admitir configuraciones con hasta siete petabytes de almacenamiento con unidades de disco duro de clase empresarial Mozaic 3+.
      • En configuraciones de escalabilidad vertical, QuantaStor utiliza OpenZFS, el sistema de archivos de alto rendimiento y nivel empresarial conocido por su protección de datos avanzada, escalabilidad y eficiencia, particularmente en entornos de almacenamiento a gran escala, lo que permite verificaciones eficientes de la integridad de los datos y la optimización del almacenamiento. La arquitectura es especialmente adecuada para cargas de trabajo de IA/ML de menor escala y entornos en los que minimizar el coste y maximizar la densidad son prioridades.
    Imagen del producto con indicaciones de funciones.

    Agrandar

    • Arquitectura de escalabilidad horizontal
      • La arquitectura de escalabilidad horizontal está diseñada para proporcionar escalabilidad de rendimiento lineal mediante la adición de más nodos. Utiliza la codificación de borrado y las técnicas de replicación en los nodos para garantizar una alta disponibilidad y la redundancia de datos. La arquitectura es especialmente adecuada para cargas de trabajo de IA/ML a gran escala, donde las necesidades de rendimiento y capacidad crecen continuamente. Por ejemplo, el entrenamiento de grandes modelos de lenguaje (LLM), como GPT (transformador generativo preentrenado) o BERT (representaciones de codificador bidireccional de transformadores), requiere una inmensa potencia computacional y almacenamiento de datos, lo que hace que la arquitectura de escalabilidad horizontal sea esencial para gestionar la creciente complejidad y el volumen de datos. Además, la investigación genómica impulsada por la IA, donde se requiere el procesamiento a gran escala de datos genómicos para tareas como el análisis de variantes y los estudios de expresión génica, también se beneficia significativamente de la escalabilidad y alta disponibilidad que proporciona la arquitectura de escalabilidad horizontal.
      • Esta arquitectura puede combinar nodos híbridos (combinación de NVMe y unidades de disco duro) con nodos completamente en flash, lo que proporciona flexibilidad a la hora de configurar los clústeres en función de los requisitos específicos de rendimiento y capacidad. En las configuraciones de escalabilidad horizontal, QuantaStor está utilizando su integración con la tecnología Ceph, que se destaca por proporcionar almacenamiento distribuido a través de un gran número de nodos.

    Consideraciones clave y opciones de diseño.

    Dependiendo de los requisitos de rendimiento específicos y las necesidades de capacidad de datos de las cargas de trabajo de IA/ML, pueden ser necesarias diferentes configuraciones para lograr resultados óptimos. Factores como el volumen de datos que se procesan y la velocidad a la que se debe acceder a los datos determinarán si una configuración híbrida o completamente flash es la mejor opción para el escenario. Además, las consideraciones de presupuesto y los requisitos de escalabilidad influirán en las decisiones de diseño de la arquitectura.

    • Configuraciones híbridas.
      • En las configuraciones híbridas, se utiliza una combinación de unidades SSD NVMe y unidades de disco duro de alta capacidad para equilibrar el rendimiento y el coste. La arquitectura admite hasta 60 o 90 unidades en JBOD, lo que la hace adecuada para cargas de trabajo de AI/ML que requieren alto rendimiento y gran capacidad en el rango de PB, como la investigación médica y física.
      • Un grupo híbrido de escalabilidad vertical típica podría usar tres unidades NVMe por grupo para metadatos y descarga de archivos pequeños, combinados con unidades de disco duro de gran capacidad para almacenar conjuntos de datos más grandes. Las configuraciones híbridas de escalabilidad horizontal tendrían tres o más unidades NVMe por nodo.
    • Configuraciones completamente en flash
      • Las configuraciones completamente en flash se recomiendan para las cargas de trabajo de IA/ML que requieren un alto rendimiento, como el análisis en tiempo real o las tareas de procesamiento de datos intensivo.
      • Estas configuraciones de escalabilidad horizontal pueden ofrecer una producción de hasta 1 TB/s aprovechando cientos de unidades NVMe en clústeres de escalabilidad horizontal.
    • Consideraciones de capacidad y rendimiento
      • Es esencial equilibrar la capacidad de almacenamiento con los requisitos de rendimiento. Por ejemplo, en un clúster híbrido de escalabilidad horizontal con una combinación de unidades flash y de disco duro, aproximadamente el 3 % del almacenamiento total podría ser en flash para optimizar el rendimiento, mientras que, en un clúster híbrido de escalabilidad vertical, el almacenamiento en flash podría ser de alrededor del 1 % del total. Con las unidades de disco duro que ofrecen una clara ventaja en cuanto a coste por terabyte y costo total de propiedad (TCO) (las unidades SSD para empresas tienen una prima de precio de 6 a 1), las unidades de disco duro siguen siendo la opción preferida para la capacidad masiva en los centros de datos.
      • La arquitectura permite comenzar con clústeres más pequeños y expandirlos según sea necesario al agregar más nodos o JBOD, lo que garantiza que la infraestructura de almacenamiento pueda crecer junto con las cargas de trabajo de IA/ML.

    Gestión y optimización.

    La gestión y la optimización efectivas son fundamentales para garantizar que las cargas de trabajo de IA/ML rindan al máximo dentro de la arquitectura de almacenamiento. Las funciones de gestión avanzada de QuantaStor agilizan las operaciones, proporcionando un control y supervisión completos en diversas configuraciones.

    • Gestión unificada de QuantaStor
      • QuantaStor proporciona un plano de control unificado que simplifica la gestión de las arquitecturas de escalabilidad vertical y horizontal. Admite funciones avanzadas como el almacenamiento en niveles automático, el cifrado de extremo a extremo y el cumplimiento de los estándares del sector, lo que garantiza que la infraestructura de almacenamiento sea segura y esté optimizada para las cargas de trabajo de IA/ML.
      • La tecnología de cuadrícula del software permite escalar sin problemas el almacenamiento en varios sitios, lo que elimina la complejidad de la gestión de sistemas dispares.

    Casos de uso y escenarios.

    Las diferentes cargas de trabajo de IA/ML requieren soluciones de almacenamiento personalizadas para lograr un rendimiento y una rentabilidad óptimos. Dependiendo de la escala y la complejidad de la carga de trabajo de trabajo, se pueden implementar configuraciones de escalabilidad vertical, horizontal o mixtas para satisfacer las demandas específicas de varios sectores y aplicaciones.

    • Casos de uso de escalabilidad vertical
      • Las configuraciones de escalabilidad vertical son ideales para entornos con cargas de trabajo de IA/ML más pequeños o para aquellos que priorizan la rentabilidad. Son ideales para aplicaciones como el almacenamiento de soportes y entretenimiento, la virtualización de servidor y el archivado de datos.
    • Casos de uso de escalabilidad horizontal
      • Las configuraciones de escalabilidad horizontal están diseñadas para la computación de alto rendimiento, los lagos de datos y los entornos de IA/ML donde la capacidad de escalar tanto el rendimiento como la capacidad es fundamental. Estas configuraciones también son ideales para el almacenamiento de objetos a gran escala y el análisis en tiempo real.
    • Casos de uso mixtos
      • Las organizaciones pueden implementar configuraciones de escalabilidad vertical y horizontal en el mismo entorno, utilizando la gestión unificada de QuantaStor para mantener la coherencia y optimizar el rendimiento en diferentes cargas de trabajo.

    whitepaper-joint-ai-supermicro-figure-4

    Agrandar

    Avances en tecnología.

    Los avances tecnológicos incorporados en esta solución son fundamentales para su eficacia. Las unidades de disco duro Seagate Exos Mozaic 3+ representan un importante avance en la tecnología de almacenamiento. Al utilizar la tecnología HAMR, estas unidades logran una densidad de área sin precedentes, lo que permite una mayor capacidad de almacenamiento dentro del mismo espacio físico. Este avance no solo aborda la necesidad de almacenamiento de datos a gran escala, sino que también mejora la eficiencia energética, ya que se requieren menos unidades para almacenar la misma cantidad de datos.

    Las ventajas del costo total de propiedad (TCO) de las unidades de disco duro Mozaic 3+ son considerables, incluido el triple de capacidad de almacenamiento en el mismo espacio del centro de datos por un 25% menos de coste por TB, un 60% menos de consumo de energía por TB y una reducción del 70% de carbono incorporado por TB (en comparación con las unidades PMR de 10 TB, una unidad de capacidad común que necesita actualización en los centros de datos en la actualidad). El menor consumo de energía de las unidades se traduce en menores costes de energía, mientras que la mayor densidad reduce la necesidad de espacio físico, lo que supone un ahorro en la infraestructura del centro de datos. Además, el bajo contenido de carbono de las unidades las convierte en una opción más respetuosa con el medio ambiente, alineándose con los objetivos de sostenibilidad que son cada vez más importantes para las empresas modernas.

    La integración de las unidades SSD Seagate Nytro NVMe añade otra capa de rendimiento mejorado. Estas unidades de alta velocidad son esenciales para gestionar las operaciones intensivas de lectura y escritura típicas de las cargas de trabajo de IA. Su baja latencia garantiza que se pueda acceder a los datos y procesarlos en tiempo real, lo cual es crucial para entrenar modelos de IA e implementar aplicaciones de IA. El diseño de puerto doble de las unidades SSD mejora la fiabilidad, ya que permite un funcionamiento continuo incluso si falla un puerto.

    El software OSNexus QuantaStor mejora aún más la solución al proporcionar una gestión de datos inteligente y funciones de seguridad avanzadas. Las capacidades de nivelación automática del software garantizan que los datos se almacenen en el nivel más adecuado, lo que optimiza tanto el rendimiento como el costo. El cifrado de extremo a extremo y el cumplimiento de los estándares del sector ayudan a proteger los datos al abordar los problemas de seguridad y privacidad que son primordiales en las aplicaciones de IA, particularmente en sectores como el de la salud y las finanzas, donde los datos confidenciales se manejan con frecuencia.

    whitepaper-joint-ai-supermicro-figure-6

    Agrandar

    Beneficios de la solución.

    La solución conjunta de Supermicro, Seagate y OSNexus ofrece varias ventajas clave que abordan las necesidades específicas de las cargas de trabajo de IA/ML. Estos beneficios incluyen:

    • Capacidad de expansión: La capacidad de la solución para escalar verticalmente y horizontalmente garantiza que pueda crecer junto con las crecientes demandas de las cargas de trabajo de IA. Ya sea que una organización esté tratando con unos pocos terabytes o varios petabytes de datos, la solución puede adaptarse a sus necesidades sin requerir una revisión completa de la infraestructura de almacenamiento.
    • Rendimiento: El uso de unidades SSD Seagate Nytro NVMe y unidades de disco duro Mozaic 3+, combinado con las capacidades de administración de QuantaStor, ofrece un rendimiento excepcional. Esto es particularmente importante para las cargas de trabajo de IA/ML que requieren una alta producción y baja latencia para funcionar de manera efectiva.
    • Rentabilidad: La arquitectura de la solución está diseñada para optimizar los gastos de capital y operativos. Al reducir el número de unidades físicas necesarias, reducir el consumo de energía y ofrecer una plataforma de gestión flexible y unificada, la solución reduce significativamente el costo total de propiedad (TCO).
    • Gestión unificada: La capacidad de QuantaStor para gestionar arquitecturas de escalabilidad vertical y horizontal desde una única interfaz simplifica las operaciones y reduce la complejidad asociada con las soluciones de almacenamiento de varios proveedores. Este enfoque unificado no solo ahorra tiempo, sino que también reduce la posibilidad de errores y aumenta la eficiencia general.
    • Seguridad y cumplimiento: La solución incluye funciones de seguridad avanzadas que protegen los datos del acceso no autorizado y garantizan el cumplimiento de los estándares del sector. Esto es particularmente importante para las aplicaciones de IA en las industrias reguladas, donde las infracciones de datos pueden dar lugar a importantes sanciones legales y financieras.
    • Impacto medioambiental: El uso de unidades de Seagate creadas en la plataforma Mozaic 3+ reduce el impacto medioambiental de los centros de datos al reducir el consumo de energía y el espacio físico necesario para el almacenamiento. Esto se alinea con el creciente énfasis en la sostenibilidad del sector tecnológico.

    Casos de uso y aplicaciones.

    La solución es lo suficientemente versátil como para admitir una amplia gama de casos de uso en varios sectores. Algunos ejemplos incluyen:

    • Servicios de salud: Las cargas de trabajo de IA/ML en la atención médica, como el análisis predictivo y la medicina personalizada, requieren la capacidad de procesar grandes cantidades de datos de forma rápida y segura. La solución conjunta ofrece la escalabilidad, el rendimiento y la seguridad necesarios para admitir estas aplicaciones.
    • Finanzas: En las finanzas, la IA se utiliza para tareas como la detección de fraudes, el comercio algorítmico y la gestión de riesgos. Estas aplicaciones requieren un procesamiento de datos de alta velocidad y análisis en tiempo real, los cuales son compatibles con la arquitectura de almacenamiento de alto rendimiento de la solución.
    • Medios y entretenimiento: La industria de los medios de comunicación y el entretenimiento genera cantidades masivas de datos, especialmente con el uso cada vez mayor de video de alta resolución. La capacidad de la solución para gestionar el almacenamiento de datos a gran escala y proporcionar un acceso rápido a los archivos la hace ideal para tareas como la edición, el renderizado y el archivado de video.
    • Fabricación: La IA/ML se utiliza en la fabricación para el mantenimiento predictivo, el control de calidad y la optimización de la cadena de suministro. Estas aplicaciones generan grandes volúmenes de datos que deben almacenarse y analizarse de manera eficiente. La solución conjunta proporciona la escalabilidad y el rendimiento necesarios para admitir estos casos de uso.
    • Investigación y desarrollo: La investigación impulsada por la IA en campos como la industria farmacéutica, la genómica, la ciencia de los materiales y el modelado climático requiere la capacidad de almacenar y procesar grandes conjuntos de datos. La alta producción y la baja latencia de la solución la hacen ideal para estas aplicaciones exigentes.

    Conclusión.

    La solución de IA conjunta desarrollada por Supermicro, Seagate y OSNexus ofrece una arquitectura de almacenamiento integral, escalable y rentable adaptada a las demandas únicas de las cargas de trabajo de IA/ML. Al combinar tecnologías avanzadas de hardware y software, la solución ofrece un rendimiento, fiabilidad y eficiencia excepcionales, lo que la convierte en una opción ideal para las organizaciones que buscan aprovechar la IA para obtener una ventaja competitiva. Ya sea que se implemente en el sector de la salud, las finanzas, los soportes de comunicación, la fabricación o la investigación, esta solución proporciona la infraestructura sólida necesaria para admitir la próxima generación de aplicaciones de IA y allanar el camino para el futuro de la innovación impulsada por la IA en todas las industrias. 

    Tabla de soluciones.

    Topología Producto Modelo de resiliencia Capacidad pura Capacidad disponible Especificación detallada
    Escalabilidad vertical SBB híbrido; Triple paridad 2039 TB en bruto 1512 TB útiles enlace
    Escalabilidad vertical SBB completamente en flash Paridad doble (4d+2p) 737 TB en bruto 553 TB útiles enlace
    Escalabilidad horizontal Hyper completamente en flash EC2k + 2m/REP3 1106 TB en bruto 533 TB útiles enlace
    Escalabilidad horizontal 4U/36 EC4K+2m/REP3 3974 TB en bruto 2513 TB útiles enlace
    Escalabilidad horizontal 4U/36 EC8K+3m/REP3 8342 TB en bruto 5786 TB útiles enlace
    Escalabilidad horizontal Carga superior de doble nodo EC8K+3m/REP3 11981 TB en bruto 8406 TB útiles enlace


    Siglas e información adicional.

    SBB: Storage Bridge Bay.
    EC: Codificación de borrados.
    "Doble paridad" y "triple paridad" se refieren al número de bloques de paridad utilizados para proporcionar redundancia de datos y tolerancia a fallos.
    Las cadenas numéricas se relacionan con el modelo de resiliencia.