AI-gegevens stromen in een oneindige lus.

Deze opwaartse spiraal maakt voortdurende creatie en iteratie mogelijk, waarbij modellen worden verfijnd terwijl ze worden uitgevoerd.

De oneindige AI-gegevenslus.

AI verbruikt en creëert gegevens. Sterker nog, AI-modellen worden beter door betrouwbare gegevens te gebruiken (zowel gegevens die door het model zelf worden gegenereerd als nieuwe gegevensbronnen). Deze oneindige lus van het genereren en verbruiken van gegevens leidt tot slimmere toepassingen en betere resultaten.

Dit verandert de waarde van gegevens en hoe we ze gebruiken fundamenteel. Door meer gegevens op te slaan in deze oneindige lus wordt AI beter.

Gegevens zijn bij elke stap een integraal onderdeel van AI.

Samen met nieuw vastgelegde gegevensbronnen wordt elk antwoord, elk stukje content of elk artefact dat AI genereert, onderdeel van de input voor de volgende trainingsronde, waardoor een continue lus van verbeterde output wordt voortgestuwd. In grootschalige datacenters worden de zes fasen van de AI-gegevenslus mogelijk gemaakt door een combinatie van geheugen- en opslagapparaten.

1. GEGEVENS VERZAMELEN

Alles begint met het definiëren, vinden en voorbereiden van de gegevens.

Alles kan dienen als gegevensset: van een kleine, gestructureerde database tot het internet zelf. Netwerkschijven staan in voor de langdurige bewaring en bescherming van onbewerkte gegevens. Netwerk-SSD's fungeren als een direct toegankelijke gegevenslaag.

2. MODELLEN TRAINEN

Vervolgens leert het model door te trainen met opgeslagen gegevens.

Training is een proefondervindelijk proces waarbij een model convergeert en wordt beschermd met controlepunten. De training vereist snelle toegang tot gegevens. Deze rekenintensieve fase maakt gebruik van geheugen met hoge bandbreedte (High Bandwidth Memory, HBM), DRAM en lokale SSD's voor het leren. Netwerkschijven en -SSD's slaan controlepunten op om de modeltraining te beschermen en te verfijnen.

3. CONTENT CREËREN

Het inferentieproces gebruikt het getrainde model om outputs te creëren.

Afhankelijk van de toepassing kan het model worden ingezet voor taken als chatten, beeldanalyse of het maken van video's. HBM, DRAM en lokale SSD's zijn de primaire opslagoplossingen die deze iteratieve creatie mogelijk maken.

4. CONTENT OPSLAAN

Het iteratieproces creëert nieuwe, gevalideerde gegevens die moeten worden opgeslagen.

Die gegevens worden opgeslagen voor verdere verfijning, kwaliteitsborging en conformiteit. Harde schijven bewaren en beschermen de gerepliceerde versies van gecreëerde content. Netwerk-SSD's bieden een even snelle gegevenslaag.

5. GEGEVENS BEWAREN

Gekopieerde gegevenssets worden bewaard in verschillende regio's en omgevingen.

Opgeslagen gegevens vormen de ruggengraat van betrouwbare AI, en maken het voor datawetenschappers mogelijk om modellen te laten werken zoals verwacht. Harde schijven zijn het voornaamste instrument voor gegevens die langdurig moeten worden opgeslagen en beschermd. Netwerk-SSD's worden gebruikt als een krachtig koppelstuk om harde schijven te verbinden met de lokale SSD-laag en gegevens door het ecosysteem te laten bewegen.

6. GEGEVENS HERGEBRUIKEN

Bron-, model- en inferentiegegevens vormen de aanzet tot de volgende taak.

De output van de content wordt teruggekoppeld naar het model, waardoor de nauwkeurigheid ervan verbetert en nieuwe modellen mogelijk worden. Netwerkschijven en -SSD's ondersteunen de creatie van geografisch verspreide AI-gegevens. Sets van onbewerkte gegevens en resultaten worden bronnen voor nieuwe workflows.

AI-werkbelastingen vereisen een spectrum aan opslag.

Geheugen- en opslagtechnologieën zoals DRAM, harde schijven en SSD's spelen een cruciale rol in de workflow van AI-gegevens. Voor elke stap is een geoptimaliseerde mix van deze apparaten nodig om de vereisten voor prestaties en schaalbaarheid van elke werkbelasting te ondersteunen.