BLOG

Opslag en rekenkracht: onmisbare pijlers voor AI-workflows.

Harde schijven en SSD's vormen samen met GPU's, CPU's, HBM en DRAM essentiële componenten in AI-toepassingen.

Inhoudsopgave

opslag-en-rekenkracht-onmisbare-pijlers-voor-ai-afbeelding opslag-en-rekenkracht-onmisbare-pijlers-voor-ai-afbeelding opslag-en-rekenkracht-onmisbare-pijlers-voor-ai-afbeelding

Het gebruik van artificiële intelligentie (AI) blijft wereldwijd toenemen. Tegelijk bieden de IT-oplossingen die AI mogelijk maken steeds sneller meer mogelijkheden. Dit resulteert in een ongeziene innovatie. 

Momenteel gaat de aandacht van bedrijfsleiders en investeerders het meest uit naar processoren (logica), voor hun bijdrage aan AI. Processoren zijn zeker essentieel voor AI en High-Performance Computing (HPC). Het succes van AI hangt echter niet alleen af van rekenkracht en supersnelle prestaties. Net zo belangrijk is dat AI-toepassingen ook kunnen vertrouwen op gegevensopslag, voor de initiële opslag van onbewerkte gegevens. Diezelfde gegevensopslag maakt ook checkpointing mogelijk om AI-workflows betrouwbaarder te maken, en biedt de nodige capaciteit om inferenties en de resultaten van AI-analyses op te slaan. 

Elke geslaagde AI-implementatie vereist een synergie van rekenkracht en gegevensopslag. 

Naarmate grote datacenters hun AI-mogelijkheden geschaald uitbreiden, wordt het duidelijker dat AI-toepassingen niet alleen afhankelijk zijn van de rekenkracht van een AI-datacenterarchitectuur. Het rekencluster bestaat uit krachtige processoren met geheugen met hoge bandbreedte (HBM), dynamisch RAM-geheugen (DRAM) en snelle lokale solid-state-schijven (SSD's). Samen vormen ze de krachtige motor voor AI-training. De rekenclustercomponenten bevinden zich lokaal, meestal vlak naast elkaar, omdat elke extra afstand latentie- en prestatieproblemen kan veroorzaken.

AI-toepassingen zijn ook afhankelijk van het opslagcluster, dat bestaat uit netwerkschijven met hoge opslagcapaciteit en netwerk-SSD's (die een hogere opslagcapaciteit horen te hebben dan de meer krachtige lokale SSD's in het rekencluster). Het opslagcluster is opgenomen in het netwerk (gedistribueerd), omdat er minder bezorgdheid is over de snelheid van grootschalige opslag. De afstand tussen de componenten is een kleinere factor in de totale latentievergelijking, in vergelijking met die van het rekencluster, waar de verwachte latentie in de nanoseconden kan lopen. De gegevens stromen uiteindelijk naar het opslagcluster, dat voornamelijk bestaat uit harde schijven met een enorme opslagcapaciteit voor langdurige bewaring.

Dit artikel onderzoekt hoe rekenkracht en opslag samenwerken in de opeenvolgende stappen van een typische AI-workflow.

Prestaties en schaalbaarheid voor AI.

Sommige technologieën in AI-workflows zijn performanter en andere schaalbaarder, maar ze maken allemaal integraal deel uit van het proces. On-device geheugen is zeer krachtig en bestaat meestal uit HBM of DRAM dat is verbonden met processoren: grafische verwerkingseenheden (GPU's) en centrale verwerkingseenheden (CPU's) of gegevensverwerkingseenheden (DPU's). DPU's zijn functionele motoren die aan CPU's zijn gekoppeld en die helpen bij specifieke taken. Sommige architecturen maken er gebruik van, andere niet. De hoge doorvoersnelheid van het geheugen maakt een efficiënte gegevensinname en modeltraining van AI mogelijk.

De lage latentie en toereikende opslagcapaciteit van SSD's maken snelle inferenties en frequente toegang tot opgeslagen content mogelijk. In een AI-architectuur voor datacenters worden snelle, lokale SSD's opgenomen in het rekencluster, dicht bij de processoren en het geheugen. Lokale SSD's werken meestal met celgeheugen op drie niveaus en hebben ook een hoge duurzaamheid, maar ze zijn meestal duurder dan netwerk-SSD's en bieden niet dezelfde hoge opslagcapaciteit. 

Netwerk-SSD's, met een hogere opslagcapaciteit dan de lokale SSD's, worden opgenomen in het opslagcluster, met andere specifieke verantwoordelijkheden in de hele workflow van een AI-toepassing. Hun hoge snelheid komt niet in de buurt van die van lokale SSD's. Netwerk-SSD's zijn verhoudingsgewijs minder duurzaam als het aankomt op Total Drive Writes per day (TDW), maar ze maken dit goed met hun hogere opslagcapaciteit.

Netwerkschijven, die ook deel uitmaken van het opslagcluster van de architectuur van het AI-datacenter, zijn de meest schaalbare en efficiënte IT-apparaten in AI-workflows. Deze apparaten hebben relatief matige toegangssnelheden, maar bieden een zeer hoge opslagcapaciteit, wat ideaal is voor gevallen waarin niet snel en/of frequent toegang nodig is.

De oneindige lus van AI.

AI-workflows werken in een oneindige lus van verbruik en creatie, waarvoor niet alleen rekenprocessoren en geheugen, maar ook opslagcomponenten nodig zijn. Een AI-workflow bestaat uit een aantal onderling gerelateerde stappen: gegevens verzamelen, modellen trainen, content creëren, content opslaan, gegevens bewaren en gegevens hergebruiken. Laten we eens kijken naar de rol die rekenkracht en opslag in deze stadia spelen.

Stap 1: gegevens verzamelen.

De stap Gegevens verzamelen omvat het bepalen, vinden en voorbereiden van gegevens voor AI-analyse.

Rekenkracht: GPU's spelen een sleutelrol in de stap Gegevens verzamelen door snelle voorverwerking en transformatie van gegevens te bevorderen. Ze vullen de CPU's aan door repetitieve berekeningen parallel uit te voeren terwijl de hoofdtoepassing op de CPU draait. De CPU fungeert als primaire eenheid en beheert meerdere algemene rekentaken, terwijl de GPU een kleiner aantal meer gespecialiseerde taken uitvoert.

Opslag: in de stap Gegevens verzamelen worden zowel netwerk-SSD's als netwerkschijven gebruikt om de enorme hoeveelheden gegevens op te slaan die nodig zijn om iets nieuws te creëren. De netwerk-SSD's fungeren als een direct toegankelijke gegevenslaag en bieden snellere prestaties. Netwerkschijven bieden een ruime, dichte, schaalbare capaciteit en zorgen er ook voor dat de onbewerkte gegevens langdurig bewaard en beschermd blijven.

Stap 2: modellen trainen.

In de stap Modellen trainen leert het model van opgeslagen gegevens. Training is een proefondervindelijk proces waarbij een model convergeert en wordt beschermd met controlepunten. De training vereist snelle toegang tot gegevens.

Rekenkracht: GPU's zijn van cruciaal belang tijdens de stap Modellen trainen, waar ze dankzij hun parallelle verwerkingscapaciteiten de enorme rekenbelasting kunnen verwerken die bij deep learning komt kijken. AI-training omvat duizenden matrixvermenigvuldigingen, die GPU's tegelijkertijd afhandelen, waardoor het proces sneller verloopt en het mogelijk wordt om complexe modellen met miljarden parameters te trainen. CPU's werken naast GPU's en orkestreren de gegevensstroom tussen geheugen en rekenbronnen. CPU's beheren taken zoals batchvoorbereiding en wachtrijbeheer, zodat de juiste gegevens op het juiste moment naar de GPU's gaan. Ze zorgen ook voor de optimalisering van de hyperparameters van het model en voeren berekeningen uit waarvoor de parallelle verwerkingskracht van GPU's niet nodig is.

Bij modeltraining zijn HBM en DRAM essentieel voor snelle gegevenstoegang, waarbij actieve gegevenssets dicht bij de processoren worden ondergebracht. HBM, dat meestal in GPU's is geïntegreerd, verhoogt de snelheid waarmee gegevens kunnen worden verwerkt aanzienlijk door de meest gebruikte gegevens toegankelijk te houden voor de GPU's tijdens de training.

Lokale SSD's dienen als snel toegankelijke opslag voor de gegevenssets die in deze stap worden gebruikt. Ze slaan tussentijdse trainingsresultaten op en maken het mogelijk om grote gegevenssets snel op te vragen. Ze zijn vooral nuttig voor het trainen van modellen die snel toegang moeten hebben tot grote hoeveelheden gegevens, zoals beeldherkenningsmodellen met miljoenen afbeeldingen.

Opslag: harde schijven slaan op een voordelige manier de enorme hoeveelheden gegevens op die nodig zijn om AI-modellen te trainen. Interne harde schijven bieden niet alleen de vereiste schaalbaarheid, maar helpen ook de gegevensintegriteit te behouden, door de gerepliceerde versies van gecreëerde content op te slaan en te beschermen. Harde schijven zijn voordelig in vergelijking met andere opslagopties, bieden betrouwbare langetermijnopslag en kunnen grote gegevenssets efficiënt bewaren en beheren.

Netwerkschijven en netwerk-SSD's slaan onder andere controlepunten op om de modeltraining te beschermen en te verfijnen. Controlepunten zijn de opgeslagen momentopnamen van de toestand van een model op specifieke momenten tijdens het trainen, afstemmen en aanpassen. Deze momentopnames kunnen later worden gebruikt om intellectuele eigendom aan te tonen of om te laten zien hoe het algoritme tot zijn conclusies is gekomen. Wanneer SSD's worden gebruikt voor checkpointing, worden de controlepunten met een korte interval geschreven (d.w.z. elke minuut) vanwege hun toegang met lage latentie. Die gegevens worden echter meestal na korte tijd overschreven vanwege de lage opslagcapaciteit van SSD's in vergelijking met die van harde schijven. Daarentegen staat dat opgeslagen controlepunten op de harde schijf meestal met een groter interval worden geschreven (bijv. om de vijf minuten), maar ze kunnen bijna eeuwig bewaard blijven dankzij de schaalbare opslagcapaciteit van de harde schijf.

Stap 3: content creëren.

De stap Content creëren omvat het inferentieproces dat het getrainde model gebruikt om outputs te creëren.

Rekenkracht: bij het creëren van content voeren GPU's de AI-inferentietaken uit, waarbij het getrainde model wordt toegepast op nieuwe gegevensinputs. Dankzij dit parallellisme kunnen GPU's meerdere inferenties tegelijk uitvoeren, waardoor ze onmisbaar zijn voor realtime toepassingen zoals het genereren van video's of AI-systemen voor conversaties. GPU's domineren de rekentaken tijdens het creëren van content, en CPU's zijn cruciaal voor het beheer van de besturingslogica en het uitvoeren van bewerkingen die seriële verwerking vereisen. Dit omvat het genereren van scripts, het verwerken van gebruikersinputs en het uitvoeren van achtergrondtaken met een lagere prioriteit die de hoge doorvoer van een GPU niet nodig hebben.

Bij de stap voor het creëren van content wordt gebruikgemaakt van HBM en DRAM. Het geheugen speelt hier een cruciale rol in realtime gegevenstoegang, waarbij de resultaten van AI-inferenties vluchtig worden opgeslagen en terug naar het model worden gevoerd voor verdere verfijning. DRAM met hoge capaciteit maakt meerdere iteraties van contentcreatie mogelijk zonder de workflow te vertragen, vooral in toepassingen zoals het genereren van video's of realtime beeldverwerking.

Bij het creëren van content bieden lokale SSD's de snelle lees- en schrijfsnelheden die nodig zijn voor verwerking in real time. Of AI nu nieuwe afbeeldingen, video's of tekst genereert, SSD's zorgen ervoor dat het systeem frequente, snelle I/O-bewerkingen zonder knelpunten kan uitvoeren, waardoor snel content wordt geproduceerd.

Opslag: HBM, DRAM en lokale SSD's zijn de primaire opslagoplossingen die de creatiestap mogelijk maken.

Stap 4: content opslaan.

In de stap Content opslaan worden de nieuw gecreëerde gegevens opgeslagen voor verdere verfijning, kwaliteitsborging en conformiteit.

Rekenkracht:
hoewel GPU's en CPU's niet direct betrokken zijn bij langetermijnopslag, kunnen ze helpen bij het comprimeren of versleutelen van gegevens wanneer deze worden voorbereid voor opslag. Dankzij hun vermogen om grote gegevensvolumes snel te verwerken, is content zonder vertraging klaar voor archivering. Geheugen wordt gebruikt als tijdelijke cache voordat gegevens naar de langetermijnopslag worden verplaatst. DRAM versnelt schrijfbewerkingen, waardoor door AI gegenereerde content snel en efficiënt wordt opgeslagen. Dit is vooral belangrijk in realtime AI-toepassingen, waar vertragingen bij het opslaan van gegevens tot knelpunten kunnen leiden.

Opslag: voor de opslag van content wordt gebruikgemaakt van zowel netwerk-SSD's als interne harde schijven om gegevens op te slaan voor voortdurende verfijning, kwaliteitsborging en conformiteit. Netwerk-SSD's bieden een gegevenslaag op de gepaste snelheid en worden gebruikt voor kortstondige, snelle opslag van door AI gegenereerde content. Vanwege hun lagere opslagcapaciteit in vergelijking met harde schijven, slaan SSD's doorgaans vaak geraadpleegde content op, of content die onmiddellijk beschikbaar moet zijn voor bewerking en verfijning.

Het iteratieproces leidt tot nieuwe, gevalideerde gegevens die moeten worden opgeslagen. Die gegevens worden opgeslagen voor verdere verfijning, kwaliteitsborging en conformiteit. Harde schijven bewaren en beschermen de gerepliceerde versies van gecreëerde content en bieden de kritieke opslagcapaciteit om de content op te slaan die tijdens AI-processen wordt gegenereerd. Ze zijn hier bijzonder geschikt voor omdat ze een hoge opslagcapaciteit bieden tegen relatief lage kosten in vergelijking met andere opslagopties zoals SSD's.

Stap 5: gegevens bewaren.

In de stap Gegevens bewaren worden gerepliceerde gegevenssets in verschillende regio's en omgevingen bewaard. In deze stap worden meestal opslagbronnen gebruikt.

Opslag: opgeslagen gegevens vormen de ruggengraat van betrouwbare AI, en maken het voor datawetenschappers mogelijk om modellen te laten werken zoals verwacht. Netwerk-SSD's worden gebruikt als een krachtig koppelstuk om harde schijven te verbinden met de lokale SSD-laag en gegevens door het ecosysteem te laten bewegen.

Harde schijven zijn het voornaamste instrument voor gegevens die langdurig moeten worden opgeslagen en beschermd. Ze helpen de resultaten van de AI-contentcreatie te behouden door de gegenereerde content veilig op te slaan, zodat deze toegankelijk is wanneer dat nodig is. Ze bieden ook de schaalbaarheid die nodig is om toenemende gegevensvolumes efficiënt te verwerken.

Stap 6: gegevens hergebruiken.

Tot slot worden in de stap Gegevens hergebruiken de bron-, trainings- en inferentiegegevens toegepast op de volgende iteratie van de workflow.

Rekenkracht: GPU's spelen een belangrijke rol in de stap Gegevens hergebruiken door modellen opnieuw uit te voeren op gearchiveerde gegevenssets voor nieuwe conclusies of aanvullende training, waardoor de AI-gegevenscyclus opnieuw kan beginnen. Hun vermogen om parallelle berekeningen uit te voeren op grote gegevenssets stelt AI-systemen in staat om de nauwkeurigheid van modellen voortdurend te verbeteren met een minimale tijdsinvestering. CPU's vragen opgeslagen gegevens op en halen ze op voor hergebruik. Ze filteren en verwerken historische gegevens op een efficiënte manier en voeren relevante delen terug naar de trainingsmodellen. In grootschalige AI-systemen voeren CPU's deze taken vaak uit terwijl ze de interacties tussen opslagsystemen en rekenclusters beheren.

Wanneer historische gegevens worden opgehaald voor hergebruik in een volgende iteratie van de analyse van het AI-model, garandeert het geheugen snelle toegang tot grote gegevenssets. Met HBM kunnen gegevenssets snel in het GPU-geheugen worden geladen, waar ze onmiddellijk kunnen worden gebruikt voor hertraining of realtime inferenties.

Opslag: de output van de content wordt teruggekoppeld naar het model, waardoor de nauwkeurigheid ervan verbetert en nieuwe modellen mogelijk worden. Netwerkschijven en -SSD's ondersteunen de creatie van geografisch verspreide AI-gegevens. Sets van onbewerkte gegevens en resultaten worden bronnen voor nieuwe workflows. SSD's versnellen het ophalen van eerder opgeslagen gegevens. Hun toegang met lage latentie bevordert een snelle re-integratie van deze gegevens in AI-workflows, waardoor de wachttijden korter worden en de algehele systeemefficiëntie toeneemt. Harde schijven voldoen aan de vereisten voor opslagcapaciteit van de stap waarin AI-gegevens worden hergebruikt, waardoor de daaropvolgende iteratie van het model tegen redelijke kosten kan worden geïmplementeerd.

Opslag is de ruggengraat van betrouwbare AI.

Zoals we hebben gezien, vereisen AI-workflows zowel krachtige processoren als opslagoplossingen voor gegevens. On-device geheugen en SSD's hebben hun plaats in AI-toepassingen dankzij hun supersnelle prestaties, waardoor snelle inferenties mogelijk zijn. Maar wij beschouwen eerder harde schijven als de ruggengraat van AI. Ze zijn vooral van cruciaal belang vanwege hun economische schaalbaarheid, een must-have in veel AI-workflows.

Harde schijven met Mozaic 3+™ technologie van Seagate - onze unieke implementatie van Heat-Assisted Magnetic Recording (HAMR)-technologie - zijn een krachtige keuze voor AI-toepassingen dankzij hun oppervlaktedichtheid, efficiëntie en optimaal ruimtegebruik. Ze bieden een ongeëvenaarde oppervlaktedichtheid van 3TB+ per schijfplaat, zijn momenteel verkrijgbaar in opslagcapaciteiten vanaf 30 TB en worden in grote volumes geleverd aan hyperscale klanten. Seagate is inmiddels al tests aan het uitvoeren met het Mozaic-platform om een opslagcapaciteit van meer dan 4 TB en zelfs 5 TB per schijfplaat te behalen.

In vergelijking met de huidige generatie harde schijven die gebruikmaken van Perpendicular Magnetic Recording (PMR), hebben Mozaic 3+ harde schijven vier keer minder bedrijfsstroom nodig en staan ze voor tien keer minder opgenomen koolstof per terabyte.

Bij AI-werkbelastingen werken rekenkracht en opslag samen. Computergerichte verwerking en geheugen, evenals krachtige SSD's, zijn essentieel in AI-toepassingen. Dat geldt ook voor schaalbare oplossingen met een massale opslagcapaciteit voor gegevens. En op dat gebied geven de harde schijven van Seagate de toon aan.