部落格

人工智慧工作負載檢查點設定:可信賴人工智慧入門。

硬碟機能保存可追蹤的透明訓練里程碑,協助提高人工智慧的可靠性。

目錄

Blog-Article_Checkpointing-in-AI-Workloads-A-Primer-for-Trustworthy-AI_Hero-Image.jpg Blog-Article_Checkpointing-in-AI-Workloads-A-Primer-for-Trustworthy-AI_Hero-Image.jpg Blog-Article_Checkpointing-in-AI-Workloads-A-Primer-for-Trustworthy-AI_Hero-Image.jpg

人工智慧 (AI) 迅速發展,已在許多產業建立不可或缺的地位。從醫療照護到金融業,族繁不及備載。AI 成功的關鍵,在於處理大量資料集的方式能產生可靠的結果。

領先群雄的公司,肯定會想要使用 AI,或根本已經開始使用。但這不光只是注重 AI 的實作,還要追求可信賴的 AI 模型、流程和結果。這些公司需要的是可信賴的 AI。

促成 AI 模型開發的其中一項關鍵流程,就是設定檢查點。這篇入門文章會說明什麼是檢查點、這是如何融入 AI 工作負載,以及為何對於建立可信賴 AI 至關重要:也就是在 AI 資料工作流程中使用可靠的輸入資料,並產生可靠的見解。

什麼是設定檢查點?

所謂的檢查點設定,是指在訓練期間以短時間的特定間隔儲存 AI 模型狀態的程序。AI 模型會在大型資料集上透過迭代程序進行訓練,耗時數分鐘到數月不等。模型訓練所需的時間,取決於模型的複雜性、資料集的大小以及可用的運算能力。在此期間,模型會接收資料、調整參數,且系統會學習如何根據所處理的資訊來預測結果。

至於檢查點的作用,就像是訓練期間模型在許多時間點當下狀態的快照,包含了模型的資料、參數和設定。快照會每分鐘或每隔幾分鐘就儲存到儲存裝置,如此開發人員即可為模型進度保留記錄,避免因意外中斷而失去寶貴的工作成果。

設定檢查點的主要優點:

  1. 斷電防護:設定檢查點其中一個最直接、最實際的好處,就是保護訓練工作不受系統故障、停電或當機影響。要是 AI 模型已經執行了數天,但系統卻發生故障,導致一切需要重新來過,便等於浪費了許多時間和資源。只要有檢查點,即可確保模型能從上次儲存的狀態繼續進行,無需從頭重複訓練。如果 AI 模型可能需要數週甚至數月才能完成訓練,檢查點尤其重要。
  2. 模型改良與最佳化:設定檢查點後,不僅能避免受故障影響,還能進行微調和最佳化。AI 開發人員通常會實驗各種不同的參數、資料集和配置,以求改善模型的準確性和效率。若是在訓練過程儲存檢查點,開發人員便能分析過去的狀態、追蹤模型的進展,並調整參數改變訓練走向。他們可能會調整圖形處理器 (GPU)設定、變更資料輸入內容,或改變模型的架構。檢查點可用來比較不同的訓練回合,並找出何處的變更改善或降低了效能。因此開發人員能使 AI 訓練達到最佳化,建立更穩健的模型。
  3. 法規遵循與智慧財產權保護:AI 法規在全球各地不斷演進,公司組織也越來越需要記錄 AI 模型的訓練方式,才能符合法律規定並確實保護智慧財產 (IP)。建立檢查點後,公司即可提供透明的記錄,展現模型訓練所用的資料和方法,藉此證明符合法規。如此有助於避免法律上的問題,也能保障有需要時得以查核訓練程序。此外,將檢查點資料儲存起來,可保護模型訓練所涉及的 IP,例如擁有專利的資料集或演算法。
  4. 建立信任並確保透明度:AI 系統的透明度無比重要,尤其是如今醫療照護、金融和自駕車等產業的決策流程,正持續納入使用 AI。建立可信賴 AI的關鍵之一,正是確保模型的決策能加以解釋,並追溯至特定的資料輸入和處理步驟。透過建立檢查點,可提供模型在每個訓練階段的狀態記錄,藉此提高透明度。開發人員和利害關係者運用這些儲存的狀態,便能追蹤模型的進展、驗證其輸出結果是否與訓練時所用的資料一致,並確定可追溯決策制訂方式的責任。

AI 的應用超越了傳統資料中心的範圍,對高容量和高效能的需求也越來越高。無論是在雲端還是內部部署,AI 工作流程都仰賴著儲存解決方案:既要提供超大容量,又要能發揮高效能。這兩者對於建立檢查點都無比重要。

在 AI 資料中心內,像是 GPU、中央處理器 (CPU) 和張量處理器 (TPU) 這類處理器,會與高效能記憶體和固態硬碟機 (SSD) 緊密結合,形成強大的運算引擎。這些配置可管理訓練工作涉及的大量資料負載,並提供快速存取能力,以在模型發展時即時儲存檢查點。

當資料在這些系統之間流動時,檢查點和其他重要資訊會保留在網路儲存叢集或物件儲存庫內。這些叢集主要是以大容量硬碟機為基礎,可確保檢查點能長期保存,以支援對擴充性和合規性的需求。這樣的分層儲存基礎結構,能讓檢查點功能有效運作,在快速存取和長期資料保留之間取得平衡。

檢查點的實際運作方式:

檢查點通常會定期建立,可能是每分鐘或每隔幾分鐘,端看訓練工作的複雜性和需求而定。

一種常見做法是大約每分鐘將檢查點寫入 SSD。SSD 可提供高速寫入效能,如此便能在訓練進行期間快速存取資料。由於 SSD 在大容量長期儲存方面的成本效益不高,因此為了管理空間,新的檢查點會覆寫先前的檢查點。

由於 AI 訓練工作通常會長時間產生大量資料,大容量儲存設備就至關重要。舉例來說,每隔五分鐘左右,AI 開發人員會將檢查點儲存到硬碟機,想要確保大量的檢查點資料得以長期保留,硬碟機的地位相當關鍵。與 SSD 相比,硬碟機的每 TB 成本比率平均超過 6:1。因此硬碟機可提供擴充性和經濟效益最佳的解決方案。要確保 AI 值得信賴,就需保留大規模資料保留,而硬碟機是唯一實用的選擇。

此外,SSD 會因為快閃記憶體儲存單元磨損,導致效能隨著頻繁的寫入循環而降低。硬碟機則使用磁性儲存裝置,可承受持續使用而不會失去完整性。這種耐用性可讓硬碟機長久維持資料可靠性,讓組織得以無限期保留檢查點,在模型部署許久之後仍然能重新檢視和分析過去的訓練結果,有助於穩健的 AI 開發和合規需求。

無限 AI 資料循環,以及對 AI 工作流程的意義:

AI 開發可視為不斷循環的過程,通常也稱為 AI 無限循環,強調了在資料取得、模型訓練、內容建立、內容儲存、資料保存和重複使用各階段之間的持續互動。此循環可確保 AI 系統隨著時間不斷改善。在這種循環之中,資料是 AI 模型的動力。一個階段的輸出結果會成為後續階段的輸入來源,如此便能持續不斷地迭代,讓模型漸趨完善。

這個過程始於取得資料,也就是收集原始資料集以供訓練之用。取得資料後,就會將資料用於訓練模型,這也是必須建立檢查點的階段。如前文所述,在模型訓練期間設置檢查點可當作保護措施,確保 AI 開發人員能儲存進度,避免中斷遺失工作,也能讓模型開發達到最佳效果。模型訓練完畢後,會用模型來建立內容,例如執行推論工作 (像是用於產生影像或分析文字)。再來會將輸出結果儲存起來,以供未來使用、達成合規性並確保品質,之後資料會長久保存並重複使用,以推動 AI 模型的下一次迭代。

在這個無限循環中,檢查點是必不可少的要素,尤其對模型訓練階段更是如此。藉由儲存模型狀態,並在整個循環過程中保留資料,AI 系統在每次循環中會變得更加可靠、透明且值得信賴。

硬碟機為何對 AI 檢查點至關重要:

AI 系統的儲存需求非常龐大。隨著模型變得越來越大、越來越複雜,自然更加需要易於擴充且成本效益良好的儲存裝置。基於以下原因,硬碟機 (尤其是資料中心架構下的硬碟機) 是 AI 檢查點的儲存支柱:

  • 擴充性:AI 模型會產生數 PB 的資料,而由於磁錄密度的突破性發展,硬碟機能提供必要的容量,長期儲存這些大規模訓練工作的檢查點。
  • 成本效益:與 SSD 相比,硬碟機的每 TB 成本低很多 (比例為 6:1)。因此要儲存大量資料集和檢查點時,硬碟機是更為可行的解決方案,不會產生高昂的成本。
  • 能源效率與永續性:與 SSD 相比,硬碟機每 TB 的作業功耗降低了 4 倍,可大幅節省能源。此外,硬碟機每 TB 的隱含碳排放量低 10 倍。對於資料中心的大規模 AI 檢查點儲存作業而言,硬碟機是更永續的選擇。
  • 長壽:硬碟機是專為長期保留資料而設計,能盡可能延長檢查點資料在需要時可供存取的時間。若要確保往後能重新檢視、驗證和改善 AI 模型,這點重要無比。

如前文所述,某些 AI 工作負載每分鐘都會將檢查點寫入 SSD,但只有五分之一的檢查點會推送到硬碟機以供長期保留。這種混合方式可同時達到最佳的速度和儲存效率。SSD 可處理立即的效能需求,而需要由硬碟機來保留資料,以達到合規性、透明度和長期分析的需要。

檢查點對可信賴 AI 的重要性:

在更廣泛的 AI 開發環境中,若要確保 AI 輸出結果的合法性,檢查點可說是不可或缺。「可信賴的 AI」指的是不但能建立起準確高效的系統,還要能讓系統維持透明,而且可究責、可解釋。AI 模型必須足夠可靠,且能證明其輸出結果具合理性。

而且檢查點還提供了 AI 開發人員「展示作品」的機制。檢查點在訓練過程的多個階段會儲存模型狀態,以追蹤決策過程、驗證模型資料和參數的完整性,並找出任何需要修正的潛在問題或是效率不彰之處。

檢查點也能確保 AI 系統可受查核,如此有助於建立信任度。無論是現在還是未來的法律,都規定 AI 系統必須易於解釋,且決策過程必須可供追蹤。公司組織可運用檢查點來保留模型訓練過程、資料來源和開發路徑的詳細記錄,以達成這些需求。

檢查點是 AI 工作負載的重要工具,對於保護訓練工作、最佳化模型以及確保透明度和可信度方面,都扮演了重要角色。AI 會持續進步,影響各行各業的決策制定,因此空前需要易於擴充且經濟實惠的儲存解決方案。硬碟機是支援檢查點流程的核心,使公司組織得以儲存、存取和分析 AI 模型在訓練期間產生的大量資料。

只要妥善運用檢查點,AI 開發人員所建立的模型不僅有效率,還會值得信賴。