Stockage des données pour l'IA
Le stockage et l'exploitation de grands volumes de données sont essentiels pour la prochaine vague d'innovation dans le domaine de l'IA.
Chez les développeurs d'applications qui entraînent et déploient des modèles d'IA, c'est la course. L'accent est mis sur la recherche des bonnes données et sur l'augmentation de la puissance de calcul. Avec la multiplication des modèles et des applications d'IA, le mode de stockage des grandes quantités d'exaoctets qui seront générées est un défi qu'il devient urgent de relever. La gestion des charges de travail liées à l'IA implique de recourir à des technologies de stockage et de mémoire qui seront déterminantes tout au long du flux des données d'IA. Des disques durs sont également indispensables.
Fournir à l’IA les données dont elle a besoin pour s’entraîner, créer et s'améliorer requiert des technologies de stockage très diverses. Qu'il s'agisse de mémoire à haut débit ou de disques durs à capacité élevée, choisir la combinaison de stockage adaptée aux charges de travail d'IA quelles qu'elles soient revient à trouver le bon équilibre entre performances, coût et évolutivité.
Les clusters de ressources de calcul de l'IA entraînent, exécutent et optimisent les modèles de langage. Les cartes graphiques, processeurs, NPU et TPU sont étroitement associés à des dispositifs de mémoire très performants offrant un débit de plusieurs téraoctets, voire pétaoctets par seconde pour les calculs les plus exigeants. Les données entrantes et sortantes utilisées et créées sont acheminées vers des clusters de stockage en réseau où elles sont conservées à long terme, principalement sur des disques durs. Elles sont alors réutilisées pour de nouvelles phases d'entraînement et soumises à des contrôles d'assurance qualité et de conformité.
Aujourd’hui, les innovateurs les plus dynamiques en matière d’IA exploitent également les plus grands centres de données cloud et ultra-évolutifs du monde. Ces entreprises choisissent de stocker 90 % de leurs données¹ en ligne sur des disques durs, parce que ceux-ci offrent un rapport coût/performances unique dans le domaine du stockage de grande capacité. Bien que la technologie SSD présente également un caractère stratégique, les disques durs continueront d'être utilisés pour stocker la majorité des données parallèlement au déploiement d'architectures toujours mieux optimisées pour l'IA.
En gérant l'ensemble du flux de données IA, les disques durs jouent un rôle essentiel dans la validation des modèles d'IA.
Exploiter pleinement le potentiel de l'IA requiert des données, ainsi qu'un système de stockage pour les héberger.
À mesure que l'IA prend de l'ampleur, l'activité des individus et des machines va se développer à un rythme phénoménal, générant des volumes de données colossaux.
L'IA s'enrichit dans une boucle de rétroaction vertueuse qui utilise des données, génère de nouveaux contenus et apprend de ses performances.
Seagate optimise le stockage nécessaire à l'IA et réalise des avancées sans précédent en matière de capacité afin de développer une architecture de centre de données efficace.
Analyse par Seagate de l'Étude multiclient d'IDC, Cloud Infrastructure Index 2023: Compute and Storage Consumption by 100 Service Providers, novembre 2023.
Analyse de Seagate basée sur Forward Insights Q323 SSD Insights, août 2023 ; IDC Worldwide Hard Disk Drive Forecast 2022-2027, avril 2023, document n° US50568323 ; Prévisions à long terme de TRENDFOCUS SDAS, août 2023.
Utilisation du carbone incorporé total avec un cycle de vie de 5 ans
Sara McAllister et al., « A Call for Research on Storage Emissions », Hotbon.org, 2024.