人工智慧需仰仗大容量資料儲存裝置。

如何儲存和發揮大量資料的功用,對於下一波人工智慧創新至關重要。

使人工智慧發揮所有潛能,可取得一種平衡。

App 開發人員競相訓練部署人工智慧模型。重點向來是尋找合適的資料並提高運算能力。隨著人工智慧模型和應用環境快速增長,出現了必須緊急應對的挑戰:想出到底該如何儲存未來將會產生的大量 EB 級資料。想要支撐人工智慧工作負載,需要在人工智慧資料流程中混和運用各種重要的記憶體和儲存技術。不過大規模的人工智慧終究還是脫不了硬碟機。

豐富多樣的記憶體和儲存技術,使人工智慧得以實現。

想要為人工智慧提供其學習、建立和改善所需資料,需要用到各式各樣的儲存技術。從高傳輸量的記憶體到大容量硬碟機,無論是要為何種人工智慧工作負載決定合適的儲存技術搭配,重點都在於平衡效能、成本和擴充性的需求。 

大部分人工智慧資料最後都是儲存在硬碟機上。

人工智慧運算叢集會訓練、執行並最佳化語言模型。GPU、CPU、NPU 和 TPU 會與高效能記憶體裝置緊密連結,能為極大的運算作業提供 TB 級甚至 PB 級的每秒傳輸量。所使用和建立的輸入和輸出資料,會進入連網儲存叢集,在該處長期保存。這類資料大部分都是儲存在硬碟機上,可用於輔助未來的重新訓練、品質控制和合規性的需求。

全世界最大規模的資料中心都選擇使用硬碟機。

當今最先進的人工智慧創新公司,同時也都是全球最大型的超大規模雲端資料中心。這類公司選擇將 90% 的線上 EB 級資料量¹儲存在硬碟機上。因為他們知道硬碟機在大容量儲存上具備獨一無二的性價比。縱使 SSD 也是很重要的儲存技術,隨著越來越多人工智慧最佳化的架構開始部署,硬碟機還是會繼續負責儲存大多數的資料。

為何硬碟機最適合用於大規模人工智慧?

人工智慧時代的資料爆發性成長,需要有能夠擴充的大容量儲存裝置。雖然固態硬碟機 (SSD) 對需要壓低延遲的工作負載很重要,人工智慧的大規模執行還是會在硬碟機上。原因有三大要素。

規模經濟。

以每 TB 成本來看,採購硬碟機的效率是 SSD 的 6 倍,因此是人工智慧資料儲存裝置擴充時的合理選擇²。

大規模 EB 量產出。

衡量資本支出,硬碟機的製造效率是 NAND 產業的 9 倍³。

規模永續。

硬碟機使用的每 TB 作業功耗比 SSD 少 4 倍,隱含碳排放量則低 10 倍⁴。

硬碟機是人工智慧資料儲存的骨幹。

硬碟機支撐起人工智慧資料的全體工作流程,對人工智慧模型驗證而言有關鍵性的地位。

  1. IDC 多用戶端研究對 Seagate 的分析,《Cloud Infrastructure Index 2023: Compute and Storage Consumption by 100 Service Providers》,2023 年 11 月。

  2. Seagate 分析依據為《Forward Insights Q323 SSD Insights》,2023 年 8 月;《IDC Worldwide Hard Disk Drive Forecast 2022-2027》,2023 年 4 月,文件編號 US50568323;《TRENDFOCUS SDAS Long-Term Forecast》2023 年 8 月。

  3. 使用 5 年生命週期的隱含碳排放量。

  4. Sara McAllister 等人,《A Call for Research on Storage Emissions》,Hotcarbon.org,2024 年。