資料湖與資料倉儲的差異

資料湖與資料倉儲的差異:何者最適合我的基礎結構?可好好比較優缺點所在。

目錄

分析師每天都會為既有的商業資料找到珍貴的全新用途。透過即時資訊以大數據為基礎下達決策,能以更有智慧的方式帶領公司走向未來,因此合適的資料儲存裝置不可或缺。

談到資料湖與資料倉儲的差異所在,均能儲存資料這一點是兩者之間少數的相似之處。其架構、最佳化和目標大不相同,且各自專精於不同的儲存和擷取形式。 

 

       資料湖 

       資料倉儲 

  • 存放非結構化的原始資料
  • 以 PB 形式存放較大量的資料
  • 可存放無限量的資料,資料會一路靜置到受到存取和轉換為止
  • 經過處理的結構化資料
  • 以 TB 形式存放較少量的資料,因為資料已經過處理、轉換或整理
  • 含有關聯式資料

 

什麼是資料湖?

資料湖的名稱來自其結構:聚集未定義、未分類、未結構化的資料的巨大池子,這些資料目前可能有也可能沒有商業上的使用需求。

這種原始資料極少會加以分類或壓縮,因此需要的處理能力較少。資料會維持在未轉換、未分類的狀態,直到受到擷取為止,如此能節省雙方的時間。

資料湖內的資訊可能會處於任何型態。像伺服器記錄檔、社交網路活動、通訊記錄、影像和感應器資料,全都能在資料湖中看到。許多使用者會將歷程資料儲存起來以備萬一,如此分析師將來便能使用。

這種結構具備彈性。若分析師有不屬於既有企業實務範圍的問題,便可深入資料湖之中,尋找原始資訊和背景資訊。資料倉儲就相當制式。

資料湖範例

若使用者需要快速存取形形色色的資訊,資料湖提供了更簡單便捷的瀏覽方式。醫療照護供應商可以建立患者的病歷檔案,涵蓋醫療記錄、相片、病歷數位文件等。

資料湖提供了所需的靈活度,可輕鬆存取每位患者各不相同的檔案類型。

什麼是資料倉儲?

如同資料湖正如其名,資料倉儲的名稱也是來自儲存資料的結構和方式。但兩者之間的相似處僅止於此。

所謂的倉儲是特定用途的集中式結構,有一套用於分類、儲存、擷取和呈現的標準範本,每次都需按照相同的方式處理。

資料倉儲僅儲存經過處理且具有確切用途的資料。對於可供批次存取、可產生大範圍的報告、可提供迅速的深度分析的資訊,即相當適合使用資料倉儲。

此種便利性,需要先在實作方面有所投資。一旦資料經過處理或重新設定格式,就很難再改變。

資料倉儲範例

考量到資料湖的規模和彈性,很容易會浮現一個疑問:「那資料倉儲有什麼用途?」雖然資料湖具有大小上的優勢,但並非適合所有用途。

對於需要根據目前趨勢迅速做出決策的資本家,就需要這種便利性。擁有一致的資訊,投資者就不需要浪費時間尋找所需的資料,而且能做出必要的決定。

資料湖和資料倉儲之間的主要差異

由於每家公司各有不同需求,混合模式的存在可能相當重要。

資料結構

資料湖或資料倉儲所儲存的資料類型不同。資料湖內的是原始資訊。也就是資訊尚未經過處理、分類或轉換為可供使用的格式,資料倉儲內的資料則相反。

資料湖的開放資料結構,讓資訊容易取得,但無比大量的資料也需要更大的儲存空間量。

資料倉儲會以更加易於移動的格式來儲存和處理資訊。圖表、試算表、表格和圖解更易於理解,因此這種結構能確保資料能立即為商務使用者派上用場,且容易取得。

資料目的

已知可達到某種目的之資訊會以某種形式儲存起來,但可能目前尚無任何商業價值。資料湖是為了因應未來需求的措施,用於建立一個檔案庫來儲存往後某個時機可能會用到的資訊。

若與資料倉儲相比較,一定要記得資料倉儲中的資訊已設定格式,且已經具有某種用途。

若商務使用者每次都需要以相同的方式獲得同樣的資訊,如此就能迅速提供深度分析資訊。正如同資料倉儲會依照某種資料結構來儲存資訊,也會以結構化的既定方式來提供資料。

資料用途

資料湖中的資訊需要透過資料科學家和專門的工具來瀏覽和轉譯。因為資料湖如此自由,才能容許提出新問題。

商務專業人士並不需要這種彈性,而是需要每次均以相同的格式呈現相關資料。資料倉儲會將資料整理為計量指標和報告,以便輕鬆存取。

資料湖、資料倉儲與資料庫的差異

並非所有公司都需要儲存來自多個應用程式的資訊。此種情況下,資料庫僅會儲存與指定程式相關的資訊。

資料湖、資料倉儲與資料庫的差異:如何挑選

最終這三種集中式資料都能提供深度分析資訊。

資料庫與多重來源格式的資料倉儲和資料庫不同,資料庫所儲存、搜尋和報告的資訊來自單一來源。因為此種範圍上的限制,資料庫最容易建立和安裝。大部分都是以關聯式資料庫的形式存在,不只會記錄資訊,也會記錄不同項目之間的聯繫關係。

不過資料庫只能用在單一應用程式產生資訊的情況下。其他兩種儲存解決方案可處理來自所有部門的資訊。

結構化、非結構化和半結構化資料的差異

需要其他資訊的新的商務問題和要求出現速度過快,資料倉儲難以趕上。在資料湖中,很容易就能存取非結構化資料並加快研究腳步。資料庫則過於固定在單一應用程式,難以在此種類型的大規模處理上發揮功用。

資料庫以制式結構儲存資訊,也無法儲存多個來源的資訊。多重格式和結構無法輕鬆以資料庫加以剖析。同樣這種有所限制的結構,反而相當適合用於資料分析和大規模的統一用途。如同資料庫所服務的軟體,資料庫在獨立運作時效果最好。

同理,對於願意且能夠在資料倉儲的限制下處理工作的對象,資料倉儲的結構能加快分析流程。若操作使用者需要 KPI 和計量指標,且需讓一切順暢運作,這種格式就相當適合。

資料處理需求

若要將資料儲存在資料倉儲中,資料必須經過分析和分類。這項工作需要時間和金錢。若這兩項要素都不充足,可考慮使用資料湖,因為資料湖完全不需處理資料。

資料湖和資料倉儲皆適合用在使用者和格式形形色色、據有多重來源的資料收集作業。資料庫僅能從單一應用程式提取資料,因此較容易用在收集和分類相關聯的資訊。

資料儲存限制

由於資料湖儲存的資料量之大,需要更多儲存空間,因此成本也連帶上升。資料庫限於單一應用程式,所需的空間較少。資料倉儲則介於兩者之間。

資料倉儲僅會儲存目前有所相關的資訊,能確保成本或空間全都用在重要資訊的刀口上。

資料成本限制

雖然安裝設置成本較高,但能透過優秀的雲端服務供應商和專業設置來輕鬆獲得諸多優點,可造就此種成本效率。

誰是存取資料的對象?

請將目標使用者客群納入考量。資料倉儲能迅速為大量客群提供深度分析資訊,較受商務客戶喜愛;而資料湖則能讓科學家自由設想出不落窠臼的解決方案。

Seagate Lyve Cloud 符合資料湖和資料倉儲需求

無論何種架構最為合適,Seagate 都已做好提供服務的萬全準備。具備時維持啟動的可用性和無可比擬的靈活度,Seagate Lyve Cloud 在頂尖儲存解決方案中具有一席之地。