AIデータは無限ループをたどります。

この好循環により、継続的な作成と反復が可能になり、実行するにつれてモデルが改良されていきます。

AIデータの無限ループ。

AIは、データを消費するだけでなく作成します。さらに、AIモデルは、信頼できるデータ(モデル自身が生成したデータと新しいデータ・ソースから取り込まれたデータの両方)を使用しながら能力を高めていきます。このデータ生産と消費の無限ループは、さらにスマートなアプリケーションと、より優れたアウトプットにつながります。

こうした動きによって、データの価値と利用方法が根本的に変わることになります。この無限ループにさらに多くのデータを保存することで、より優れたAIが実現します。

データは、どのような段階にあるAIにとっても不可欠です。

新たに取得されたデータ・ソースとともに、AIが生成するすべての回答、コンテンツ、成果物が、次のトレーニング・ラウンドの入力情報の一部となり、出力結果を改善する継続的なループが形成されます。大規模なデータ・センターの展開では、AIデータ・ループの6つのフェーズは、ストレージ・デバイスとメモリ・デバイスを組み合わせから成ります。

1.データの調達

まず、データの定義、検索、準備を行う。

データセットは、小さな構造化データベースからインターネット自体まで、何でも構いません。ネットワーク・ハードディスク・ドライブは、未加工データの長期保存とデータ保護を実現します。ネットワークSSDは、すぐにアクセスできるデータ層として機能します。

2.モデルのトレーニング

次に、保存データでモデルに対してトレーニングを行い、学習させます。

トレーニングは試行錯誤のプロセスであり、モデルが収束し、チェックポイントで保護されます。トレーニングには高速データ・アクセスが必要です。この計算集約型のフェーズでは、学習にHBM、DRAM、ローカルSSDを使用します。ネットワーク・ハードディスク・ドライブとSSDは、チェックポイントを保存して、モデルのトレーニングを保護および改良します。

3.コンテンツの作成

推論プロセスでは、トレーニング済みモデルを使用して出力を作成します。

用途に応じて、チャット、画像分析、ビデオ作成などのタスクにモデルを使用できます。この反復的な作成を実現するプライマリ・ストレージは、HBM、DRAM、およびローカルSSDです。

4.コンテンツの保存

反復的なプロセスによって、ストレージを必要とする新しい検証済みデータが生成されます。

このデータは、継続的な改良、品質保証、コンプライアンスのために保存されます。ハードディスク・ドライブでは、作成されたコンテンツの複製されたバージョンが保存および保護されます。ネットワークSSDは、速度に合わせたデータ層を提供します。

5.データの保持

複製されたデータセットは、複数のリージョンおよび環境にわたって保持されます。

保存データは信頼できるAIのバックボーンであり、データ・サイエンティストはモデルが期待どおりに動作していることを確認できます。ハードディスク・ドライブは、長期保存とデータ保護を必要とするデータの主要な実現手段です。ネットワークSSDは、ハードディスク・ドライブをローカルSSD層に接続し、データがエコシステム内を移動できるようにするためのパフォーマンス・ガスケットとして使用されます。

6.データの再利用

ソース、モデル、推論データを、今後の改善に活かす。

コンテンツ出力はモデルにフィードバックされ、モデルの精度が向上し、新しいモデルが有効になります。ネットワーク・ハードディスク・ドライブとSSDは、地理的に分散したAIデータ作成をサポートします。未加工のデータセットと成果物は、新しいワークフローのソースになります。

AIワークロードには、幅広いメモリおよびストレージ・デバイスが必要。

DRAM、ハードディスク・ドライブ、SSDなどのメモリやストレージ技術は、AIデータ・ワークフロー全体で重要な役割を果たしており、いずれのステップでも、こうしたデバイスを最適に組み合わせて、各ワークロードのパフォーマンスおよび拡張性要件に対応する必要があります。