AIによる、前例のないデータ増加。

モデルが進歩し、AIが普及するにつれ、データ生成は指数関数的に増大していきます。

創造活動とイノベーションがAIによって爆発的に増加。

生成AIによって、新時代の到来が告げられ、パーソナライズされたゲームから医療用画像の作成、企業の生産性向上に至るまで、日常生活のほぼあらゆる場面でリッチ・メディアが利用されています。

AIアプリケーションによる創造、分析、開発が以前よりも身近になり、AI主導でデータが急増しています。しかし、これは始まりに過ぎません。革新的なユースケースが拡大するにつれ、人や機械が、これまでにないペースでデータを生成するようになるでしょう。

AIがデータ増加をますます加速させる。

AIはデータを消費する存在だったが、今では、データを次々と生成している。

AIによって、わずか1年半で150億の画像が生成されており¹、AIモデルによる画像や動画作成は、2028年までに167倍に増加すると予測されています。²煎じ詰めると、AIの時代は、3つの重要な要因によって、データ増加の変曲点をもたらしています。3つとは、コンテンツの充実度向上、複製データの増加、保持期間の延長です。

コンテンツの充実度向上。

変革の最も大きな可能性は、リッチ・メディアを消費し生成するマルチモーダル・モデルにあります。

複製データの増加。

AIデータは、モデルがトレーニングされてアウトプットを生成するにつれて、数え切れないほどコピーされます。

保持期間の延長。

データの保存は、AI開発の推進と透明性の確保につながります。

コンテンツの充実度向上。

変革の最も大きな可能性は、リッチ・メディアを消費し生成するマルチモーダル・モデルにあります。

The smart chatbots and search summaries we use today are mere baby steps in AI's growth. The real transformative potential lies in multimodal AI models that consume and produce rich media.

画像、音声、動画、3Dアニメーションなどの多種多様な情報入力によって、多種多様な情報が出力され、これまでよりも強烈で直感的な体験が生み出されます。マルチモーダルAIアプリケーションのスコープや機能が拡大するにつれ、個人も企業も、かつてないペースで創造を行えるようになります。

将来のリッチ・メディアAIは、業界の至るところで影響を与えるでしょう。
  • ゲーム用の高解像度3Dモーション・グラフィックス
  • 映画制作のバーチャル・セットに使用されるUltra HDビデオ
  • 建築、エンジニアリング、建設、製造業向け3D CADジェネレータと物理シミュレータ
  • 放射線科、腫瘍科、外科で使用されるAI医療アシスタント
  • 創薬と試験のための分子合成
  • 超パーソナライズされた広告、ゲーム、オンライン体験
     
こうしたすべてのリッチ・メディアが、次世代のAIモデル強化に使用されます。

この新たな世界で、何時間もかけたコンテンツ、何千もの画像、何テラバイトものデータが生成されると、3つの現象が起きるでしょう。AIを利用する人が増え、データ集約的なコンテンツがますます作成されます。次世代AIモデルのトレーニングのために全データが取り込まれ、世界中で生成され保存されるデータの量が爆発的に増加します。

複製データの増加。

AIデータは、モデルがトレーニングされてアウトプットを生成するにつれて、数え切れないほどコピーされます。

Enabling successful AI models and applications requires more data replication. Whether to ensure model quality through checkpointing, distribute applications geographically, iterate outputs, or modify them into multiple formats, copying data is integral to AI as models are dispersed across cloud and enterprise environments.

新しいコンテンツの生成と複製は、AIデータのライフサイクルを通じて行われる複製の一部に過ぎません。データ・フットプリントは、AIの開発および製造プロセスで急激に増加し、AIが展開されコンテンツ生成が始まると、指数関数的に拡大します。このサイクルを通じて、規制遵守のためにデータ・エコシステム全体が繰り返し複製されます。

複製のすべてのステップで、データが急増。
  • データの発見、照合、トレーニング用のラベル付けの際に複製が行われる。
  • トレーニング中の定期的なチェックポイントで進捗状況がバックアップされる。一般的なトレーニングでも、何百もの大きなファイルが作成される。
  • モデルやアプリケーションが展開されると、それらのデータが多数のノードやインスタンスにコピーされる。
  • 多くの人々が、AIを利用して、複数のコンセプト、実験、バージョンなどの作成や計画を行い、それらを繰り返すと思われる。
保持期間の延長。

データの保存は、AI開発の推進と透明性の確保につながります。

The data an AI model consumes and creates is a treasure trove of model behavior, usage patterns, and raw material. The more data we preserve, the better we can train and optimize models to produce better quality output.

モデルのトレーニングには、最初に大量のラベル付きデータを使用します。トレーニング中のデータ、たとえばチェックポイント・データなどを保存すれば、モデルの今後の動作に関するインサイトを得られます。モデルを展開し、出力の生成が始まると、プロンプトと応答のそれぞれが、モデルのパフォーマンス評価、モデルのチューニング、次回のトレーニングの準備に活用できる貴重な情報源となります。

データは、データ・サイクルのすべての妥当なポイントで保存する必要があります。 
  • AIの改善と開発には、最新のデータおよびインサイトが必要で、データを保存しておけば、それらを取得できます。
  • 賢くなったAIは将来、保存されている過去のデータからインサイトを引き出し、新たな価値を生み出せる可能性があります。 
  • 著作権法によって、著作物の使用許諾を要求されることもありますが、データを保存しておけば、監査可能な証跡を提示できます。
  • プライバシー、法的、倫理的ガイドラインへの遵守を証明できるよう、データの安全な保管が規制で義務付けられています。
AIを信頼できるかどうかは、データの透明性にかかっている。

AIモデルの信頼性を確保するには、データの長期的な保持が、きわめて重要です。モデルによる各判断を文書化し、出力結果を分析すると、モデルのドリフトやハルシネーションを開発者が特定しやすくなります。

トレーニング・データまで溯ってエラーを調査できれば、モデルの意思決定プロセスを解明し、再トレーニングや最適化に役立つデータを提供できます。こうしたデータ・ポイントはすべて保存して共有し、モデルのパフォーマンスについて客観的で透明性のある証拠を提示しなければなりません。