人工智慧檢查點
硬碟機能保存可追蹤的透明訓練里程碑,協助提高人工智慧的可靠性。
人工智慧 (AI) 迅速發展,已在許多產業建立不可或缺的地位。從醫療照護到金融業,族繁不及備載。AI 成功的關鍵,在於處理大量資料集的方式能產生可靠的結果。
領先群雄的公司,肯定會想要使用 AI,或根本已經開始使用。但這不光只是注重 AI 的實作,還要追求可信賴的 AI 模型、流程和結果。這些公司需要的是可信賴的 AI。
促成 AI 模型開發的其中一項關鍵流程,就是設定檢查點。這篇入門文章會說明什麼是檢查點、這是如何融入 AI 工作負載,以及為何對於建立可信賴 AI 至關重要:也就是在 AI 資料工作流程中使用可靠的輸入資料,並產生可靠的見解。
所謂的檢查點設定,是指在訓練期間以短時間的特定間隔儲存 AI 模型狀態的程序。AI 模型會在大型資料集上透過迭代程序進行訓練,耗時數分鐘到數月不等。模型訓練所需的時間,取決於模型的複雜性、資料集的大小以及可用的運算能力。在此期間,模型會接收資料、調整參數,且系統會學習如何根據所處理的資訊來預測結果。
至於檢查點的作用,就像是訓練期間模型在許多時間點當下狀態的快照,包含了模型的資料、參數和設定。快照會每分鐘或每隔幾分鐘就儲存到儲存裝置,如此開發人員即可為模型進度保留記錄,避免因意外中斷而失去寶貴的工作成果。
AI 的應用超越了傳統資料中心的範圍,對高容量和高效能的需求也越來越高。無論是在雲端還是內部部署,AI 工作流程都仰賴著儲存解決方案:既要提供超大容量,又要能發揮高效能。這兩者對於建立檢查點都無比重要。
在 AI 資料中心內,像是 GPU、中央處理器 (CPU) 和張量處理器 (TPU) 這類處理器,會與高效能記憶體和固態硬碟機 (SSD) 緊密結合,形成強大的運算引擎。這些配置可管理訓練工作涉及的大量資料負載,並提供快速存取能力,以在模型發展時即時儲存檢查點。
當資料在這些系統之間流動時,檢查點和其他重要資訊會保留在網路儲存叢集或物件儲存庫內。這些叢集主要是以大容量硬碟機為基礎,可確保檢查點能長期保存,以支援對擴充性和合規性的需求。這樣的分層儲存基礎結構,能讓檢查點功能有效運作,在快速存取和長期資料保留之間取得平衡。
檢查點通常會定期建立,可能是每分鐘或每隔幾分鐘,端看訓練工作的複雜性和需求而定。
一種常見做法是大約每分鐘將檢查點寫入 SSD。SSD 可提供高速寫入效能,如此便能在訓練進行期間快速存取資料。由於 SSD 在大容量長期儲存方面的成本效益不高,因此為了管理空間,新的檢查點會覆寫先前的檢查點。
由於 AI 訓練工作通常會長時間產生大量資料,大容量儲存設備就至關重要。舉例來說,每隔五分鐘左右,AI 開發人員會將檢查點儲存到硬碟機,想要確保大量的檢查點資料得以長期保留,硬碟機的地位相當關鍵。與 SSD 相比,硬碟機的每 TB 成本比率平均超過 6:1。因此硬碟機可提供擴充性和經濟效益最佳的解決方案。要確保 AI 值得信賴,就需保留大規模資料保留,而硬碟機是唯一實用的選擇。
此外,SSD 會因為快閃記憶體儲存單元磨損,導致效能隨著頻繁的寫入循環而降低。硬碟機則使用磁性儲存裝置,可承受持續使用而不會失去完整性。這種耐用性可讓硬碟機長久維持資料可靠性,讓組織得以無限期保留檢查點,在模型部署許久之後仍然能重新檢視和分析過去的訓練結果,有助於穩健的 AI 開發和合規需求。
AI 開發可視為不斷循環的過程,通常也稱為 AI 無限循環,強調了在資料取得、模型訓練、內容建立、內容儲存、資料保存和重複使用各階段之間的持續互動。此循環可確保 AI 系統隨著時間不斷改善。在這種循環之中,資料是 AI 模型的動力。一個階段的輸出結果會成為後續階段的輸入來源,如此便能持續不斷地迭代,讓模型漸趨完善。
這個過程始於取得資料,也就是收集原始資料集以供訓練之用。取得資料後,就會將資料用於訓練模型,這也是必須建立檢查點的階段。如前文所述,在模型訓練期間設置檢查點可當作保護措施,確保 AI 開發人員能儲存進度,避免中斷遺失工作,也能讓模型開發達到最佳效果。模型訓練完畢後,會用模型來建立內容,例如執行推論工作 (像是用於產生影像或分析文字)。再來會將輸出結果儲存起來,以供未來使用、達成合規性並確保品質,之後資料會長久保存並重複使用,以推動 AI 模型的下一次迭代。
在這個無限循環中,檢查點是必不可少的要素,尤其對模型訓練階段更是如此。藉由儲存模型狀態,並在整個循環過程中保留資料,AI 系統在每次循環中會變得更加可靠、透明且值得信賴。
AI 系統的儲存需求非常龐大。隨著模型變得越來越大、越來越複雜,自然更加需要易於擴充且成本效益良好的儲存裝置。基於以下原因,硬碟機 (尤其是資料中心架構下的硬碟機) 是 AI 檢查點的儲存支柱:
如前文所述,某些 AI 工作負載每分鐘都會將檢查點寫入 SSD,但只有五分之一的檢查點會推送到硬碟機以供長期保留。這種混合方式可同時達到最佳的速度和儲存效率。SSD 可處理立即的效能需求,而需要由硬碟機來保留資料,以達到合規性、透明度和長期分析的需要。
在更廣泛的 AI 開發環境中,若要確保 AI 輸出結果的合法性,檢查點可說是不可或缺。「可信賴的 AI」指的是不但能建立起準確高效的系統,還要能讓系統維持透明,而且可究責、可解釋。AI 模型必須足夠可靠,且能證明其輸出結果具合理性。
而且檢查點還提供了 AI 開發人員「展示作品」的機制。檢查點在訓練過程的多個階段會儲存模型狀態,以追蹤決策過程、驗證模型資料和參數的完整性,並找出任何需要修正的潛在問題或是效率不彰之處。
檢查點也能確保 AI 系統可受查核,如此有助於建立信任度。無論是現在還是未來的法律,都規定 AI 系統必須易於解釋,且決策過程必須可供追蹤。公司組織可運用檢查點來保留模型訓練過程、資料來源和開發路徑的詳細記錄,以達成這些需求。
檢查點是 AI 工作負載的重要工具,對於保護訓練工作、最佳化模型以及確保透明度和可信度方面,都扮演了重要角色。AI 會持續進步,影響各行各業的決策制定,因此空前需要易於擴充且經濟實惠的儲存解決方案。硬碟機是支援檢查點流程的核心,使公司組織得以儲存、存取和分析 AI 模型在訓練期間產生的大量資料。
只要妥善運用檢查點,AI 開發人員所建立的模型不僅有效率,還會值得信賴。