白皮書

運用進階儲存架構,強化資料中心的人工智慧。

seagate-supermicro-osnexus

Supermicro、Seagate 與 OSNexus 攜手合作,為人工智慧的未來打造解決方案,旨在提升人工智慧的效率和擴充性。

分鐘讀取時間

seagate-supermicro-osnexus

目錄:

    執行摘要:

    人工智慧 (AI) 的興起,帶動了空前的需求:大家需要易於擴充、高效能又經濟實惠的資料中心儲存解決方案。本白皮書所介紹的是全方位解決方案,結合了 Supermicro 硬體、採用 Seagate HAMR 型 Mozaic 3+™ 技術的 Seagate Exos 硬碟機,以及 OSNexus QuantaStor 軟體。這項多方聯手的解決方案,可因應 AI 帶動的爆炸性資料儲存需求成長,提供穩固的架構,且同時支援垂直擴充和橫向擴充的配置。主要優點包括:擴充性更高而能應對不斷成長的 AI 工作負載,高傳輸量和低延遲可提供優異效能,且能減少實體硬碟機和用電量以達到最佳成本效益,統一管理平台可簡化操作需求,而先進的全功能符合法律合規的要求,並且以節能的儲存解決方案來降低對環境的影響。

    簡介:

    AI 和機器學習 (ML) 技術的快速發展,從根本上改變了資料儲存的局勢。運算能力的進步、對開發人員的普遍性供應,以及更快速的開發工具,使得採用 AI 技術的創新突破大幅增加。隨著 AI 模型日趨先進,對可擴充的高效能儲存解決方案的需求也空前高漲。資料是 AI 的骨幹,而高效儲存、管理和存取大量資料的能力,則對訓練 AI 模型和部署 AI 應用程式至關重要。傳統儲存解決方案通常無法滿足這類需求,因此必須配合 AI 工作負載所需,量身打造全新架構。

    AI 工作負載不斷演變,儲存解決方案也必須跟進。

    AI 工作負載帶來了獨特的挑戰,傳統儲存解決方案難以應付。AI 模型需要大量資料以供訓練,通常會達到 PB 規模。這些資料必須隨時可供存取,因為訓練流程的效率很大程度上取決於是否能快速擷取資料。此外 AI 應用環境通常牽涉到大規模的資料處理工作,而需要有高傳輸量和低延遲,才能提供即時的深度分析資訊。

    AI 工作負載的高運算密度還會產生大量的中繼資料,一定要有效管理才能避免出現瓶頸。傳統儲存解決方案的擴充性和效能有限,並不適合這些需求。通常缺乏足以處理動態工作負載的靈活性,而導致效率低下並增加營運成本。

    AI 創新發展所需的儲存解決方案,必須能快速擴充規模、處理大量非結構化的資料,且提供順暢無阻的資料的存取能力。舉例來說,若要訓練複雜的 AI 模型,為了改善演算法並提高準確度,就會涉及到大量資料集的迭代處理。迭代工作所需的龐大資料量,可能會讓傳統儲存系統不堪重荷,因此造成延遲並降低 AI 作業的整體效率。

    此外對 AI 的應用越來越常部署在注重立即資料處理能力的即時環境中。包括自駕車、預測性維護以及個人化醫療保健等用途。這些使用案例不但需要高容量的儲存解決方案,還必須具備卓越的效能,才能支援即時的資料分析和決策工作。

    支援垂直擴充和橫向擴充配置。

    Supermicro、Seagate 和 OSNexus 的合作解決方案結合了尖端的軟硬體,能為 AI 工作負載提供穩健、易於擴充、經濟實惠的儲存基礎結構。此解決方案的核心要素包括 Supermicro 伺服器和 JBOD、Seagate Mozaic 3+ 硬碟機、Seagate Nytro NVMe SSD,以及 OSNexus QuantaStor 軟體。

    合作解決方案的架構可支援垂直擴充和橫向擴充配置,因此能配合各式各樣的部署需求。

    垂直擴充 (即向上擴充) 會增加單一儲存系統或伺服器的容量,例如增加 CPU、記憶體和/或儲存硬碟機等資源的數量。這種做法能將個別裝置的效能最大化,但在擴充性方面本身有所限制。

    另一種為橫向擴充 (即水平擴充),則是在系統中增加更多儲存節點或伺服器,將工作量分散到多個裝置上。如此可提供幾乎無限的擴充性,讓系統隨著需求成長一起無阻暢擴充架構,便能處理規模更大、更複雜的 AI 工作負載量。

    垂直擴充的配置適合較小型且注重成本的應用環境,可提供最高 5-10GB/秒的傳輸量。相較之下,橫向擴充配置則是專為更大規模的部署所設計,效能會隨著更多節點加入而呈線性提高。這種擴充能力,能讓解決方案達到每秒數百 GB 的傳輸量,滿足重度 AI 工作負載的需求。

    完美整合 Supermicro 伺服器、Seagate 硬碟機和 QuantaStor 軟體,便形成了緊密又有效率的儲存解決方案。此架構同時支援檔案儲存和物件儲存,因此組織能夠靈活選擇最適合其特定需求的配置。QuantaStor 具備統合管理能力,可確保所有元件協調運作,提供最佳的效能和可靠性。若能用單一平台管理垂直擴充和橫向擴充配置,就能簡化操作,並降低多個儲存系統維護上的複雜性。

    架構總覽:

    此架構由是由 Supermicro 伺服器、Seagate Exos Mozaic 3+ 硬碟機和 Seagate Nytro NVMe SSD 組成,皆以 OSNexus QuantaStor 軟體負責協調運作。這種組合可滿足AI/ML 工作負載量的重度需求,也就是需要高傳輸量、低延遲以及高效處理大量資料集的能力。

    基礎架構部署考量:

    • 為成功達成目標所需的網路和最低基礎架構,本文不會討論細節,但這些都是架構的策制訂的重大要素。
    • 重要準則:
      • 網路速度 (決定最合適的介質和節點大小)
      • 機架規格 (機架深度與 U 空間)
      • 用電量和散熱預算

     

    垂直擴充和橫向擴充架構。

     

    • 垂直擴充架構
      • 若環境需要成本效益良好的高密度儲存設備,最適合使用這種架構。此架構會以 Supermicro 的 24 機槽機殼使用雙埠 NVMe 硬碟機,如此能共同存取基礎硬碟機,提供高度的可用性和效能。支援 JBOD 擴充,最多可將四個 JBOD 連接到垂直擴充控制器,因此可支援 Mozaic 3+ 企業級硬碟機配置多達 7PB 的儲存容量。
      • 在垂直擴充配置中,QuantaStor 採用 OpenZFS 此種高效能的企業級檔案系統,特點是以先進的資料保護、擴充性和效率,尤其適合大規模的儲存環境,能實現高效率的資料完整性檢查和儲存最佳化。此架構特別適合較小規模的AI/ML 工作負載,以及優先追求最低成本和最高密度的環境。
    含功能說明的產品圖片。

    放大

     

    • 橫向擴充架構
      • 橫向擴充架構的設計,旨在新增更多節點來提供線性的效能擴充性。會使用糾刪碼和跨節點複製技術,以確保高度可用性和資料備援能力。大規模 AI/ML 工作負載對效能和容量的需求持續成長,格外適合採用此種架構。例如訓練大型語言模型 (LLM),像是 GPT (生成式預先訓練變換器) 或 BERT (變換器的雙向編碼器表徵),就需要強大的運算能力和資料儲存空間,因此若要管理日益增加的複雜性和資料量,橫向擴充架構不可或缺。此外,對於運用 AI 技術的基因體研究,像變異分析和基因表現研究等工作都需要大量處理基因體資料,因此橫向擴充架構的擴充性和高可用性會大有助益。
      • 此架構可將混合式節點 (NVMe 和硬碟機混用) 與全快閃節點結合起來,配合特定的效能和容量需求來靈活配置叢集。在橫向擴充配置中,QuantaStor 運用了自家與 Ceph 技術的整合,而 Ceph 技術相當擅於在大量節點上實施分散式儲存。

    主要考量與設計選擇。

    依 AI/ML 工作負載量對效能和資料容量的特定需求,可能需要不同的配置才能達到最佳效果。需根據資料處理量和資料存取速度等因素,判斷應當使用混合式還是全快閃配置才是最適合情況的選擇。此外預算考量和擴充性需求,也會影響架構的設計選擇。

    • 混合式配置
      • 在混合式配置中,會搭配使用 NVMe SSD 和高容量硬碟機,以求在效能和成本之間取得平衡。這種架構可用 JBOD 支援多達 60 或 90 部硬碟機,因此相當適合需要高效能和 PB 級大容量的 AI/ML 工作負載,例如醫療和物理研究。
      • 一般垂直擴充的混合集區,可能會每個集區用三部 NVMe 硬碟機處理中繼資料和小型檔案的卸載作業,並搭配大容量硬碟機來儲存較大的資料集。橫向擴充的混合式配置在每個節點會配備三部以上 NVMe 硬碟機。
    • 全快閃配置
      • 對於需要極高效能的 AI/ML 工作負載 (例如即時分析或重度資料處理工作),則建議使用全快閃配置。
      • 這種橫向擴充配置能利用橫向叢集的數百個 NVMe 硬碟機,提供高達每秒 1TB 的傳輸量。
    • 容量與效能考量
      • 儲存容量和效能需求之間,必須取得平衡。舉例來說,橫向擴充的混合式叢集會搭配使用快閃記憶體和硬碟機,為了達到最佳效能,總儲存容量的 3% 左右可能就會是快閃記憶體。然而在垂直擴充的混合式叢集,快閃記憶體儲存量可能只佔總數的 1%。硬碟機在每 TB 成本和 TCO 上具有明顯優勢 (企業 SSD 的價格溢價是 6:1),因此硬碟機仍然是資料中心大容量的首選。
      • 這種架構可從較小的叢集起步,再視需要增加更多節點或 JBOD 來擴充叢集,確保儲存基礎結構能隨著 AI/ML 工作負載量一同成長。

    管理與最佳化。

    為了確保 AI/ML 工作負載在儲存架構中發揮最佳表現,必須進行有效的管理和最佳化。QuantaStor 的進階管理功能不但能簡化作業,還能提供全方位的控制並監督各種不同的配置。

    • QuantaStor 統合管理
      • QuantaStor 提供統合控制介面,簡化垂直擴充和橫向擴充架構的管理工作。其可支援自動分層處理、端對端加密等進階功能,而且符合業界標準,能保障儲存基礎結構的安全,並針對 AI/ML 工作負載採取最佳化處理。
      • 該軟體的網格技術可跨多站點無縫擴充儲存容量,消除不同系統在管理上的複雜性。

    使用案例和情境。

    不同的 AI/ML 工作負載量需要量身打造的儲存解決方案,才能達到最佳效能和成本效益。可以視工作量的規模和複雜性,部署垂直擴充、橫向擴充或混合式的配置,以配合各種產業和應用環境的專門需求。

    • 垂直擴充使用案例
      • 垂直擴充配置最適合 AI/ML 工作負載量較小,或是注重成本效益的環境。非常適合媒體娛樂儲存、伺服器虛擬化和資料封存等用途。
    • 橫向擴充使用案例
      • 橫向擴充的配置,是專為高效能運算、資料湖和 AI/ML 環境所設計。在這類環境中,得以擴大效能和容量的能力至關重要。這類配置也適用於大規模物件儲存和即時分析。
    • 混合式使用案例
      • 公司組織可在同一個環境中部署垂直擴充和橫向擴充配置。只要使用 QuantaStor 的統合管理功能,就能使不同的工作負載之間維持一致性,並達到最佳效能。

    whitepaper-joint-ai-supermicro-figure-4

    放大

    技術進步。

    此解決方案所展現的技術進步,是其效率的關鍵所在。Seagate Exos Mozaic 3+ 硬碟機是儲存技術的重大飛躍。本系列硬碟機採用 HAMR 技術,可達到空前的磁錄密度,在相同的實體空間中提供更大的儲存容量。這項技術的進步,不僅能因應大規模資料儲存的需求,還因為能以較少的硬碟機儲存相同的資料量,而能改善能源效率。

    Mozaic 3+ 硬碟機的 TCO 優勢相當可觀。像是能以相同的資料中心佔地空間提供 3 倍儲存容量,每 TB 成本降低 25%,每 TB 耗電量降低 60%,且每 TB 隱含碳派房量減少 70% (比較對象為 10TB PMR 硬碟機,為目前資料中心所需升級的一般硬碟機容量)。硬碟機若能降低耗電量,就能進一步減少能源成本;較高的密度則能減少對實體空間的需求,進而降低資料中心基礎架構的成本。此外硬碟機的碳排放更低,也因此成為更環保的選擇,符合對現代企業日益重視的永續性目標。

    整合 Seagate Nytro NVMe SSD,效能更上一層樓。管理 AI 工作負載量常見的密集讀取和寫入作業時,這類高速硬碟機至關重要。低延遲能保障資料的即時存取和處理,而這正是訓練 AI 模型和部署 AI 應用環境的關鍵。SSD 的雙連接埠設計能提升可靠性,即使其中一個連接埠故障也能持續運作。

    OSNexus QuantaStor 軟體提供智慧型資料管理和進階安全功能,進一步強化解決方案。該軟體的自動分層功能,能確實將資料儲存在最合適的分層中,達到最佳的效能與成本。端對端加密以及對業界標準的合規性,可應對 AI 應用環境最看重的安全性和隱私權考量,有助於保護資料安全。像是醫療保健和金融這類產業經常需要處理敏感資料,這點尤其重要。

    whitepaper-joint-ai-supermicro-figure-6

    放大

     

    解決方案的優點。

    Supermicro、Seagate 和 OSNexus 的合作解決方案有多項關鍵優勢,足以因應 AI/ML 工作負載的特定需求。優點如下:

    • 擴充性:此解決方案具備垂直和橫向擴充能力,因此確保能隨著 AI 工作負載需求增加而一同成長。無論公司組織要處理幾 TB 還是幾 PB 的資料,該解決方案都能滿足需求,不需徹底改造儲存基礎結構。
    • 效能:Seagate Nytro NVMe SSD 搭配 Mozaic 3+ 硬碟機,再加上 QuantaStor 的管理功能,便能提供優異的效能。這對需要高傳輸量和低延遲才能有效運作的 AI/ML 工作負載來說,尤其重要。
    • 成本效益:該解決方案的架構旨在達到最佳的資本與營運支出。由於減少所需的實體硬碟機數量、降低耗電量並提供靈活的統合管理平台,而能大幅降低總擁有成本 (TCO)。
    • 統合管理:QuantaStor 能以單一介面同時管理垂直擴充和橫向擴充架構,如此能簡化操作,還能降低多廠商的儲存解決方案所帶來的複雜性。這種統合式的方法不僅可節省時間,還能減少潛在的錯誤並提高整體效率。
    • 安全性與合規性:此解決方案有先進的安全功能,可防止資料遭到未經授權的存取,並且確保符合業界標準。受監管產業的 AI 應用環境格外注重這一點,因為資料外洩可能會招致嚴重的法律和財務懲罰。
    • 環境影響:使用 Mozaic 3+ 平台的 Seagate 硬碟機,可降低耗電量並減少儲存資料所需的實體空間,進而減少資料中心對環境的影響。此特色相當符合科技領域越來越重視永續性的趨勢。

    使用案例和應用環境。

    此解決方案具備豐富功能,足以支援各行各業、各式各樣的用途。部分範例如下:

    • 醫療保健:醫療照護領域的 AI/ML 工作負載 (例如預測分析和個人化醫療),需要具備快速安全處理大量資料的能力。此合作解決方案所擁有的擴充性、效能和安全性,足以支援這類用途。
    • 金融:在金融領域中,AI 可用於詐騙偵測、演算法交易和風險管理等工作。這類應用環境需要飛快的資料處理速度和即時分析能力,而此解決方案的高效能儲存架構可同時支援這兩者。
    • 媒體與娛樂:媒體娛樂產業會產生大量資料,高解析度影片的用量日益增加後更是如此。此解決方案可處理大規模的資料儲存,並提供快速的檔案存取能力,最適合用於影片編輯、渲染和封存等工作。
    • 製造:AI/ML 可在製程中用於預測性維護、品質控制和供應鏈最佳化。這類應用環境會產生大量資料,需要有效率地加以儲存和分析。合作解決方案的擴充性和效能足以支援這類用途的需求。
    • 研發:製藥、基因體學、材料科學和氣候建模等領域,會以 AI 來推動研究,而需要具備大型資料集的儲存和處理能力。此解決方案的高傳輸量和低延遲,非常適合用於這種要求嚴苛的應用環境。

    結論:

    由 Supermicro、Seagate 和 OSNexus 共同開發的 AI 解決方案,可提供全方位、可擴充、經濟實惠的儲存架構,而且是針對 AI/ML 工作負載的獨特需求所量身打造。此解決方案結合了先進的硬體和軟體技術,可提供優異的效能、可靠性和效率。如果公司組織想運用 AI 取得競爭優勢,這是最理想的選擇。無論是部署在醫療保健業、金融業、媒體業、製造業,還是做為研究之用,都能提供各種用途所需的強大基礎架構,以支持下一代 AI 應用環境的發展,並為未來各行各業的 AI 創新鋪好前路。 

    解決方案表格:

    拓樸結構產品彈性模式原始容量可用容量詳細規格
    垂直擴充SBB 混合式三同位2,039TB 原始容量1,512TB 可用容量連結
    垂直擴充SBB 全快閃雙同位 (4d+2p)737TB 原始容量553TB 可用容量連結
    橫向擴充超級快閃記憶體EC2k+2m/REP31,106TB 原始容量533TB 可用容量連結
    橫向擴充4U/36EC4K+2m/REP33,974TB 原始容量2,513TB 可用容量連結
    橫向擴充4U/36EC8K+3m/REP38,342TB 原始容量5,786TB 可用容量連結
    橫向擴充雙節點頂載EC8K+3m/REP311,981TB 原始容量8,406TB 可用容量連結


    縮寫與其他資訊:

    SBB:Storage Bridge Bay (儲存橋接機槽)。
    EC:擦除碼。
    「雙同位」和「三同位」是指用來提供資料備援和容錯能力的同位區塊數目。
    數字字串與彈性模型有關。