AI zorgt voor een ongeziene toename van gegevens.

Naarmate modellen zich ontwikkelen en AI alomtegenwoordig wordt, zullen er exponentieel meer gegevens worden gecreëerd.

Creativiteit en innovatie nemen explosief toe met AI.

Generatieve AI luidt een nieuw tijdperk in waarin rich media in bijna elk facet van het dagelijks leven opduiken, van gepersonaliseerde games tot medische beeldvorming tot creatie van content en in nog veel meer.

De AI-toepassingen waarmee gebruikers kunnen creëren, analyseren en ontwikkelen, worden steeds toegankelijker, waardoor het aantal door AI aangestuurde gegevens toeneemt. En dat is nog maar het begin. Mensen en machines zullen gegevens blijven genereren in een tempo dat zijn weerga niet kent naarmate innovatieve gebruiksscenario's zich geschaald uitbreiden.

AI is een momentversterker voor gegevenstoename.

AI is altijd al een gegevensverbruiker geweest. Nu is het ook een krachtige maker van gegevens.

In slechts 1,5 jaar tijd heeft AI 15 miljard afbeeldingen gecreëerd.¹ In 2028 zal het aantal afbeeldingen en video's dat met AI-modellen wordt gecreëerd 167 keer zo groot zijn.² Uiteindelijk leidt het AI-tijdperk tot een belangrijk keerpunt in de toename van gegevens, dat door drie belangrijke factoren wordt aangestuurd: rijkere content, meer replicatie en langere retentie.

Rijkere content.

Het transformatieve potentieel van AI ligt in multimodale modellen die rich media consumeren en produceren.

Meer replicatie.

AI-gegevens worden ontelbare keren gekopieerd terwijl modellen worden getraind en output produceren.

Langere retentie.

Het bewaren van gegevens wakkert AI-ontwikkeling aan en zorgt voor transparantie.

Rijkere content.

Het transformatieve potentieel van AI ligt in multimodale modellen die rich media consumeren en produceren.

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

Rijkere inputs, zoals beeldmateriaal, audio, video en 3D-animaties, creëren rijkere outputs die sterkere, intuïtievere ervaringen kunnen ondersteunen. Naarmate multimodale AI-toepassingen in omvang en mogelijkheden toenemen, zullen mensen en bedrijven in een ongekend tempo kunnen creëren.

Toekomstige AI op basis van rich media zal overal in sectoren voelbaar zijn.
  • Bewegende 3D-beelden in hoge resolutie voor gaming
  • Ultra HD-video voor virtuele sets bij het maken van films, compleet met geanimeerde extra's
  • 3D CAD-generatoren en fysicasimulatoren voor architectuur, techniek, bouw en productie
  • AI-aangestuurde medisch assistenten in radiologie, oncologie en chirurgie
  • Moleculaire synthese voor het ontwikkelen en testen van geneesmiddelen
  • Hypergepersonaliseerde advertenties, games en online ervaringen
     
Al deze rich media zullen worden gebruikt om de volgende generatie AI-modellen te verbeteren.

In deze nieuwe wereld waarin we uren content, duizenden afbeeldingen en terabytes aan gegevens kunnen creëren, zullen er drie dingen gebeuren. Meer mensen zullen gebruikmaken van AI om alsmaar gegevensintensievere content te creëren, AI zal al die gegevens verwerken om de volgende generatie modellen te trainen, en de hoeveelheid gegevens die de wereld creëert en opslaat zal explosief toenemen.

Meer replicatie.

AI-gegevens worden ontelbare keren gekopieerd terwijl modellen worden getraind en output produceren.

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

Nieuwe content genereren en dupliceren is slechts een deel van de replicatie die plaatsvindt gedurende de gehele levenscyclus van AI-gegevens. In het ontwikkelings- en productieproces van AI zullen gegevens steeds meer voetafdrukken achterlaten, die nog eens exponentieel toenemen zodra AI wordt ingezet en content begint te genereren. Tijdens de hele cyclus wordt het hele gegevensecosysteem herhaaldelijk gedupliceerd voor naleving van wet- en regelgeving.

Replicatie vermenigvuldigt gegevens bij elke stap.
  • Wanneer gegevens worden gevonden, verzameld en gelabeld voor training, worden ze ook gedupliceerd.
  • Regelmatige controlepunten tijdens de training maken een back-up van de voortgang. Bij een standaardtrainingsrun worden zo honderden grote bestanden gemaakt.
  • Wanneer modellen en toepassingen worden ingezet, worden de gegevens ervan gekopieerd naar talrijke knooppunten en instanties.
  • Steeds meer mensen zullen AI gebruiken om meerdere concepten, experimenten en versies te creëren en te itereren.
Langere retentie.

Het bewaren van gegevens wakkert AI-ontwikkeling aan en zorgt voor transparantie.

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

Het trainen van een model begint met een grote verzameling gelabelde gegevens. Het opslaan van gegevens tijdens de trainingsrun, inclusief controlepuntgegevens, kan inzicht geven in toekomstig gedrag van het model. Zodra het model is ingezet en resultaten genereert, zijn elke vraag en elk antwoord een waardevolle bron voor het evalueren van de prestaties van het model, het afstellen van het model en het voorbereiden van de volgende trainingsrun.

Gegevens moeten op elk redelijk punt in de gegevenscyclus worden bewaard. 
  • Voor het verbeteren en ontwikkelen van AI zijn nieuwe gegevens en inzichten nodig, en bewaarde gegevens kunnen die verschaffen.
  • AI kan in de toekomst misschien inzichten halen uit opgeslagen gegevens, en zo nieuwe waarde creëren. 
  • Auteursrechtwetten vereisen dat werken gelicentieerd worden voor gebruik; het bewaren van gegevens biedt een controleerbaar spoor.
  • Regelgeving vereist veilige opslag om de naleving van wettelijke, ethische en privacyrichtlijnen aan te tonen.
Betrouwbare AI is afhankelijk van gegevenstransparantie.

Het langdurig bewaren van gegevens is van cruciaal belang om de betrouwbaarheid van een AI-model te bepalen. Het documenteren van elke beslissing die het model neemt en het analyseren van de resultaten helpt ontwikkelaars om modeldrift en hallucinaties op te sporen.

Het terugsporen van fouten naar trainingsgegevens kan helpen bij het uitpakken van de besluitvormingsprocessen van een bepaald model en kan gegevens opleveren voor hertraining en optimalisering. Al deze gegevenspunten moeten worden bewaard en gedeeld om objectief, transparant bewijs te leveren van de prestaties van het model.