部落格

儲存與運算:人工智慧工作流程的連鎖需求。

硬碟機和 SSD 會與 GPU、CPU、HBM 和 DRAM 一起成為人工智慧應用環境的重要一員。

目錄

storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image storage-and-compute-tandem-needs-for-ai-thumbnail-image

人工智慧 (AI) 應用環境的普及運用,在世界各地持續成長。與此同時,IT 解決方案讓 AI 得以實現的功能性,也在加速發展。前所未見的創新也隨之而來。

處理器 (邏輯) 方面因為對 AI 的貢獻,目前最受企業領導者和投資者關注。對人工智慧和高效能運算來說,處理器不可或缺,這點無庸置疑。但 AI 的成功,並不光是取決於運算和高速效能。人工智慧應用環境也需仰賴資料儲存裝置,重要性不相上下。儲存裝置提供了原始資料的初始儲存庫,也能藉以建立檢查點,培養人工智慧工作流程的信任度,也會用來儲存人工智慧分析的推論和結果。

任何成功的人工智慧實作,都需要運算資源和資料儲存資源協同合作。

隨著大型資料中心擴大其 AI 功能性,顯然 AI 應用環境不會再單純倚靠 AI 資料中心架構的運算能力。運算叢集的處理器是由高效能、高頻寬的記憶體 (HBM)、動態隨機存取記憶體 (DRAM) 和速度飛快的本機固態硬碟機 (SSD) 組成,打造出強大的 AI 訓練引擎。運算叢集元件位於本機,通常彼此相鄰。因為只要增加距離都有可能導致延遲和效能問題。

AI 應用環境也很倚賴儲存叢集,其中有高容量的網路硬碟機和網路 SSD (運算叢集的本機 SSD 效能更強,儲存叢集則是容量效能更高的)。儲存叢集採用網路連線 (分散式),因為在大規模作業中,較不用考量儲存裝置的速度效能。在此元件距離對整體延遲的影響較小,不像運算叢集預期的延遲可能要以納秒為單位資料最終都會流向儲存叢集,主要是以長期保存專用的大容量硬碟機所構成。

本文會探討就典型 AI 工作流程來看,運算和儲存這兩大方面是如何在多個階段中協同運作。

AI 的效能與擴充性:

AI 工作流程中,有些技術的效能更高,有些則是可擴充性更高,但每種技術都是整體流程必不可少的一環。裝置內建記憶體具有高效能,通常是由連接至處理器的 HBM 或 DRAM 組成,連接的處理器包括了圖形處理器 (GPU),以及中央處理器 (CPU) 或資料處理器 (DPU)。DPU 是連接至 CPU 的卸載功能性引擎,可協助執行特定工作。不一定所有架構都會使用到。若有高傳輸量的記憶體,AI 便得以實現高效率的資料擷取和模型訓練作業。

SSD 提供低延遲和充足容量,可用於處理快速推論和對儲存內容的頻繁存取。在 AI資料中心架構內,運算叢集會包含了效能飛快的本機 SSD,與處理器和記憶體距離很近。本機 SSD 通常執行的是三層單元記憶體,耐用性也相當高,但通常比網路 SSD 更昂貴,容量也較小。

與本機 SSD 相比,儲存叢集內的網路 SSD 資料儲存容量較大,且在整個 AI 應用環境工作流程中擔負了特定的其他職責。其效能速度比不上本機 SSD。網路 SSD 硬碟機每日寫入工作的耐久性相對較低,但較大的容量彌補了這點。

網路硬碟機也屬於 AI 資料中心架構的儲存叢集,是 AI 工作流程中最具擴充性和效率的 IT 裝置。這類裝置的存取速度相對較慢,但擁有非常高的容量,因此最適合不需要快速頻繁存取的情況。

AI 無限循環:

AI 工作流程的運作,會行程在消耗和建立資料的無限循環。不僅需要具備運算能力的處理器和記憶體,還需要儲存元件。AI 工作流程的相關步驟,包括了取得資料、訓練模型、建立內容、儲存內容、保存資料、重複使用資料。接著來看看運算和儲存在各階段扮演的角色。

步驟 1:取得資料。

取得資料的階段,需要定義、探索和準備資料,以供 AI 分析。

運算:GPU 在取得資料的階段,擁有舉足輕重的地位,負責加快資料的高速預處理和轉換工作。它們與 CPU 相輔相成,同時執行重複的運算工作,而主要應用環境則在 CPU 上執行。CPU 做為主要裝置,須管理多種共通的運算工作,GPU 則執行數量較少、更專業化的任務。

儲存:在取得資料的階段,網路 SSD 和網路硬碟機用於儲存大量資料,再用這些資料建立新的資料。網路 SSD 可做為立即存取的資料層,提供更快的效能。網路硬碟機提供龐大、密集、可擴充的容量,同時也能長期保留和保護原始資料。

步驟 2:訓練模型。

在在模型訓練的步驟,模型會用儲存的資料來學習。訓練是不斷試錯的過程,模型會逐漸趨同,也會再各個檢查點受到保護。訓練工作需要高速的資料存取能力。

運算:GPU 在模型訓練階段至關重要,其並行處理能力可供處理深度學習所需的大量運算負載。AI 訓練工作會涉及到數千個矩陣乘法運算,而 GPU 會同時進行這些計算工作,因此能加快處理速度,才有可能訓練數十億個參數的複雜模型。CPU 與 GPU 攜手合作,一同協調記憶體和運算資源之間的資料流。CPU 負責管理批次準備和佇列管理等工作,如此便能在正確的時間將正確的資料送入 GPU。此外還能處理模型超參數的最佳化,進行可能不需要用到 GPU 平行處理能力的運算工作。

在模型訓練時,HBM 和 DRAM 是快速資料存取的關鍵,可在靠近處理器的位置保存使用中的資料集。HBM 通常會整合在 GPU 中,可在訓練期間讓 GPU 存取最常使用的資料,進而大幅提升資料處理速度。

本機 SSD 可做為此階段快速存取所用資料集的儲存裝置,負責儲存中間的訓練結果,並可供快速擷取大型資料集。若是訓練的模型需要快速存取大量資料 (例如涉及數百萬張影像的影像辨識模型),本機 SSD 特別有用。

儲存:要儲存 AI 模型訓練所需的大量資料時,硬碟機相當經濟實惠。硬碟機除了可提供所需的容量擴充能力,還有助於維護資料完整性,也就是儲存並保護所建立內容的複製版本。硬碟機與其他儲存選擇相比,成本效益更佳,可提供可靠的長期儲存空間,並且高效保存和管理大型資料集。

除此之外,網路硬碟機和網路 SSD 會儲存檢查點,以保護並完善模型的訓練工作。檢查點是模型在訓練、調整和適應過程中特定時刻所保存的狀態快照。之後可能會使用這些快照來證明智慧財產所屬,或展現演算法是如何得出結論。若將 SSD 用於建立檢查點,由於 SSD 的存取延遲度低,因此能以快速的時間間隔 (即每分鐘) 寫入檢查點。不過這些資料通常會在短時間 (即五分鐘後) 後覆寫,因為 SSD 的容量比硬碟機小。相較之下,硬碟機儲存的檢查點通常是用較長的間隔寫入 (如每五分鐘一次)。但由於硬碟機的容量易於擴充,幾乎可以永久保存。

步驟 3:建立內容。

內容建立階段便涉及到推論程序,會使用經過訓練的模型來建立輸出結果。

運算:在內容建立期間,GPU 會執行 AI 推論工作,將訓練好的模型套用到新的輸入資料上。這種並行的做法,使得 GPU 能同時執行多個推論工作,因此對影片生成或是對話式 AI 系統等即時應用來說,GPU 有不可或缺的地位。GPU 在內容建立期間主宰運算工作,而在管理控制邏輯和執行任何需要序列處理的作業時,CPU 則是關鍵所在。這包括了產生指令碼、處理使用者輸入內容,以及執行不需要 GPU 高傳輸量的低優先背景工作。

內容建立的階段會使用到 HBM 和 DRAM。記憶體對即時資料存取非常重要,會迅速儲存 AI 推論的結果,並將結果輸回模型,以供進一步完善模型。高容量 DRAM 可處理複數的內容建立迭代工作,而不會拖慢工作流程速度,特別適合影片生成或即時影像處理等應用方式。

在內容建立期間,本機 SSD 會提供即時處理所需的飛快讀寫速度。無論 AI 是要用於生成新的影像、影片還是文字,SSD 都能讓系統處理頻繁的高速 I/O 作業,而不會出現瓶頸,確保能快速產生內容。

儲存:使得建立階段得以實現的主儲存設備,便是 HBM、DRAM 和本機 SSD。

步驟 4:儲存內容。

內容儲存階段,新建立的資料會儲存起來,以供往後持續完善模型、提供品質保證和保證合規性。

運算:
GPU 和 CPU 雖然不會直接參與長期儲存,但在處理資料儲存的準備工作時,可能會協助壓縮或加密資料。其具備快速處理大量資料的能力,表示可立即將內容處理好,以待歸檔保存。將資料移至長期儲存裝置之前,記憶體會做為暫時性的快取記憶體。DRAM 可加快寫入作業,快速且有效率地儲存 AI 產生的內容。這在即時的 AI 應用環境中尤其重要,因為資料儲存的延遲可能會導致瓶頸。

儲存:內容儲存階段仰賴網路 SSD 和網路硬碟機,需儲存資料以供往後持續完善模型、保證品質和確保合規性。網路 SSD 可提供與資料層相當的速度,適合當作 AI 產生內容的短期高速儲存裝置。與硬碟機相比,SSD 的容量較少,因此往往用於儲存經常存取的資料,或是必須立即可供編輯和改善的內容。

反覆生成的過程中,會經過驗證的全新資料,因此需要有儲存空間。這些資料會儲存起來,等待繼續受到精製、確保品質,並確實符合法規。硬碟機可儲存和保護所建立內容的複製版本,並提供儲存 AI 進程中所產生內容的重要容量。與其他儲存選擇 (如 SSD) 相比,硬碟機的成本相對低廉,且能提供龐大的儲存容量,因此特別適合此用途。

步驟 5:保存資料。

資料保存階段,複製的資料集會跨區域和環境保留起來。此階段通常會用到儲存資源。

儲存:可信賴的 AI 是以儲存的資料為骨幹。如此資料科學家才能確保模型依預期運作。網路 SSD 會做硬碟機和本機 SSD 層之間的效能銜接,協助資料在生態系統之間移動。

資料之所以能長期儲存並受到保護,主要就是靠硬碟機。硬碟機能保留 AI 內容建立的成果,安全儲存所產生的內容,以便在需要時存取。而且所具備的擴充性可有效應對不斷增加的資料量。

步驟 6:重複使用資料。

最後在資料重複使用的階段,會將來源資料、訓練資料和推論資料應用到工作流程下一次的迭代。

運算:GPU 在資料重複使用的階段,具有舉足輕重的地位。GPU 會對封存的資料集重新執行模型,以進行新的推論或額外的訓練工作,讓 AI 資料循環重新開始。其能在大型資料集執行平行運算,因此 AI 系統持續改善模型準確度時,只需用最少的時間。CPU 會查詢和擷取所儲存的資料以便重複使用,有效率地篩選和處理歷史資料,將相關部分饋送給訓練的模型。在大規模 AI 系統中,CPU 執行這些工作的同時,通常也會負責管理儲存系統和運算叢集之間的互動。

當擷取歷史資料以供 AI 模型重複另一次分析工作時,記憶體可確保能快速存取大型資料集。HBM 可將資料集快速載入 GPU 記憶體,在此立即用於重新訓練或即時推論。

儲存:內容輸出的成果會輸回模型之中,改善模型的準確度,並能藉此建立新模型。網路硬碟機和 SSD 可支援地理位置分散的 AI 資料建立作業。原始資料集和生成的內容,會變成新工作流程的資料來源。SSD 可加快先前儲存資料的擷取速度。低延遲存取有助於迅速將資料重新整合到 AI 工作流程中,進而減少等待時間並提升整體系統效率。硬碟機可滿足 AI 資料重複利用階段的大容量儲存需求,讓模型的後續迭代能以合理的成本進行。

儲存裝置是人工智慧的支柱。

如所見,AI 工作流程需要高效能的處理器以及資料儲存解決方案。裝置內建記憶體和 SSD 具備高速效能,可進行快速推論,因此在 AI 應用環境中佔有一席之地。不過硬碟機更該視為 AI 的支柱。考量到硬碟機經濟實惠的擴充性,對許多 AI 工作流程來說硬碟機是必不可少的一環。

Seagate 硬碟機採用 Mozaic 3+™ 技術,這是我們獨有的熱輔助磁性記錄 (HAMR) 技術,其磁錄密度、效率和空間最佳化等優點,是 AI 應用環境的上上之選。這系列硬碟機提供了前所未有的單碟3TB+ 磁錄密度,目前供應的容量從 30TB 起跳,並大量出貨給超大規模客戶。Seagate 已經在測試 Mozaic 平台,以求實現單碟 4TB+ 和 5TB+ 的容量。

與目前的垂直磁性記錄 (PMR) 硬碟機相比,Mozaic 3+ 硬碟機每 TB 所需的作業功耗少了四倍,碳排放量則是減少少十倍。


在 AI 工作負載中,運算和儲存是協同運作。以運算為中心的處理能力和記憶體,以及高效能的固態硬碟機,對 AI 應用環境至關重要。可擴充的大容量資料儲存解決方案也不可或缺,而 Seagate 硬碟機正走在最前端。