人工智慧的資料儲存
如何儲存和發揮大量資料的功用,對於下一波人工智慧創新至關重要。
App 開發人員競相訓練部署人工智慧模型。重點向來是尋找合適的資料並提高運算能力。隨著人工智慧模型和應用環境快速增長,出現了必須緊急應對的挑戰:想出到底該如何儲存未來將會產生的大量 EB 級資料。想要支撐人工智慧工作負載,需要在人工智慧資料流程中混和運用各種重要的記憶體和儲存技術。不過大規模的人工智慧終究還是脫不了硬碟機。
想要為人工智慧提供其學習、建立和改善所需資料,需要用到各式各樣的儲存技術。從高傳輸量的記憶體到大容量硬碟機,無論是要為何種人工智慧工作負載決定合適的儲存技術搭配,重點都在於平衡效能、成本和擴充性的需求。
人工智慧運算叢集會訓練、執行並最佳化語言模型。GPU、CPU、NPU 和 TPU 會與高效能記憶體裝置緊密連結,能為極大的運算作業提供 TB 級甚至 PB 級的每秒傳輸量。所使用和建立的輸入和輸出資料,會進入連網儲存叢集,在該處長期保存。這類資料大部分都是儲存在硬碟機上,可用於輔助未來的重新訓練、品質控制和合規性的需求。
當今最先進的人工智慧創新公司,同時也都是全球最大型的超大規模雲端資料中心。這類公司選擇將 90% 的線上 EB 級資料量¹儲存在硬碟機上。因為他們知道硬碟機在大容量儲存上具備獨一無二的性價比。縱使 SSD 也是很重要的儲存技術,隨著越來越多人工智慧最佳化的架構開始部署,硬碟機還是會繼續負責儲存大多數的資料。
硬碟機支撐起人工智慧資料的全體工作流程,對人工智慧模型驗證而言有關鍵性的地位。
IDC 多用戶端研究對 Seagate 的分析,《Cloud Infrastructure Index 2023: Compute and Storage Consumption by 100 Service Providers》,2023 年 11 月。
Seagate 分析依據為《Forward Insights Q323 SSD Insights》,2023 年 8 月;《IDC Worldwide Hard Disk Drive Forecast 2022-2027》,2023 年 4 月,文件編號 US50568323;《TRENDFOCUS SDAS Long-Term Forecast》2023 年 8 月。
使用 5 年生命週期的隱含碳排放量。
Sara McAllister 等人,《A Call for Research on Storage Emissions》,Hotcarbon.org,2024 年。