人工智慧資料會無限循環。

這種良性循環促成了資料持續建立和迭代,並在模型執行時繼續改善模型。

人工智慧資料無限迴圈。

人工智慧不但會吸收資料,也會建立資料。人工智慧模型實際上就是使用值得信賴的資料來不斷進步。有些資料是模型本身所產生,有些則是取自新的資料來源。這種資料產出和吸收的無限循環,會使得應用程式越來越聰明、得到的成果越來越優秀。

這使得資料的價值與使用方式從根本上發生改變。在無限循環中儲存了更多資料,造就更優秀的 AI。

資料在人工智慧的每個階段都至關重要

每當出現全新擷取的資料來源,人工智慧產生的每個答案、每項內容或每個製品,都會成為下一輪訓練的輸入內容,形成不斷改善輸出成果的循環。在大規模資料中心部署中,AI 資料迴圈的六階段需要搭配使用各種記憶體和儲存裝置才能實現

1.取得資料

首先要定義、尋找和準備資料。

資料集有各種可能性,也許是小型的結構化資料庫,也可能是網際網路本身。網路硬碟機可提供原始資料,且能長期保留,也有資料保護功能。網路 SSD 可做為立即存取的資料層。

2.訓練模型

接下來會使用儲存的資料訓練模型,讓模型學習。

訓練是不斷試錯的過程,模型會逐漸趨同,也會再各個檢查點受到保護。訓練工作需要高速的資料存取能力。這種需要大量運算的階段,會將 HBM、DRAM 和本機 SSD 用於訓練。網路硬碟機和 SSD 可儲存檢查點,以求保護模型訓練過程,並使之完善。

3.建立內容

在推論的過程,會使用訓練過的模型來產生輸出。

根據所需用途,可能會將模型用於聊天、影像分析或影片建立等工作。使得這種反覆生成的作業得以實現的主儲存設備,便是 HBM、DRAM 和本機 SSD。

4.儲存內容

迭代過程中會建立經過驗證的新資料,而需要儲存起來。

這些資料會儲存起來,等待繼續受到精製、確保品質,並確實符合法規。建立內容的複製版本,可由硬碟機加以儲存和保護。網路 SSD 可提供高速的資料存取層。

5.保存資料

複製的資料集會跨地區和環境加以保留。

AI 要值得信賴,儲存的資料便是骨幹。如此資料科學家才能確保模型依預期運作。資料之所以能長期儲存並受到保護,主要就是靠硬碟機。網路 SSD 會做硬碟機和本機 SSD 層之間的效能銜接,協助資料在生態系統之間移動。

6.重新利用資料

資料來源、模型、推論資料,是下個階段的動力來源。

內容輸出的成果會輸回模型之中,改善模型的準確度,並能藉此建立新模型。網路硬碟機和 SSD 可支援地理位置分散的 AI 資料建立作業。原始資料集和生成的內容,會變成新工作流程的資料來源。

人工智慧工作負載需要用到各式各樣的儲存裝置。

像 DRAM、硬碟機和 SSD 這類儲存技術,在人工智慧資料流程中有相當重要的地位。每個階段都需要盡可能善用各類裝置,才能支援每種工作負載所需的效能和擴充性。