データ・レイクとデータ・ウェアハウス
データ・レイクとデータ・ウェアハウス:インフラストラクチャに最適なサービスとはメリットとデメリットを比較しましょう。
既存のビジネス・データの有益な利用法が、アナリストによって日々新しく発見されています。リアルタイムの情報から得たビッグ・データに基づく意思決定により、企業のスマート化が促進され、適切なデータ・ストレージが不可欠になりつつあります。
データ・レイクとデータ・ウェアハウスは、いずれもデータを保存することは同じですが、それ以外の点では大きく異なっています。両者は構造、最適化、目標の面でまったく異なり、ストレージと検索の方式にもそれぞれ特色があります。
データ・レイク |
データ・ウェアハウス |
|
|
データ・レイクの名前はその構造に由来します。定義やソートがされていない、非構造化データの巨大なプールで、その時点では業務上の目的がないこともあります。
この未加工データをソートまたは圧縮することはほとんどないため、より小さな処理能力で済みます。データは検索されるまで変換もソートもされないため、格納時の処理時間を節約できます。
データ・レイクの情報はどのような形式でも構いません。サーバー・ログ、ソーシャル・ネットワークのアクティビティ、通信記録、画像、センサーのデータなどもすべて、データ・レイクに格納できます。多くのユーザーが、将来的にアナリストが使用できるように履歴データを保存しています。
こうした構造により、データ・レイクには柔軟性があります。外部のアナリストが既存の業務活動を調査したいと考えた場合でも、データ・レイクを探してソース情報とコンテキストを見つけることができます。データ・ウェアハウスは非常に厳格です。
データ・レイクではさまざまな情報にすばやくアクセスする必要があるため、より使い勝手のよいナビゲーション・ソリューションが使われます。医療機関であれば患者の医療記録、写真、往診メモなどが含まれた履歴ファイルを構築できます。
データ・レイクは、患者ごとに異なるファイル・タイプに簡単にアクセスするのに必要な柔軟性を備えています。
データ・レイクと同様、データ・ウェアハウスの名前もその構造とデータの保存方法に由来します。類似点はそれだけです。
ウェアハウスは特別な目的を持つ一元化された単一の構造で、ソート、ストレージ、検索、表示を毎回同じ方法で実行するための標準テンプレートを備えています。
データ・ウェアハウスは処理済みかつ明確な使用目的のあるデータのみを格納します。データの一括抽出や、広範なレポートの生成、すばやいインサイトの提供を目的としたデータにはデータ・ウェアハウスが適しています。
しかし便利な分だけ実装に投資が必要です。データが処理されて再フォーマットされると、変更は難しくなります。
データ・レイクの規模と柔軟性を知ると、何のためにデータ・ウェアハウスが必要なのかという疑問が湧くかもしれません。データ・レイクは容量こそ大きいものの、すべてのタスクに適しているわけではありません。
投資家が最新のトレンドに基づいてすばやい判断をするには、データ・ウェアハウスの利便性が必要です。情報が一貫しているからこそ、投資家はデータの検索で無駄な時間を費やすことなく、必要な決定ができます。
企業のニーズはそれぞれ異なるため、場合によってはハイブリッドなモデルが有効です。
データ・レイクとデータ・ウェアハウスでは格納できるデータのタイプが異なります。データ・レイクの情報は未加工データです。つまり、データ・ウェアハウスのデータは利用可能なフォーマットに処理、ソート、変換されているのに対し、データ・レイクのデータはされていません。
スキーマがないため、データ・レイクに格納されている情報にはより簡単にアクセスできますが、データのボリュームが大きいためより多くのストレージ・ボリュームを必要とします。
データ・ウェアハウスはよりポータブルなフォーマットで情報を格納および処理します。チャート、スプレッドシート、表、グラフなどは理解しやすいため、構造化されたデータはビジネス・ユーザーにとってすぐに役立ち、アクセスも簡単です。
既知の目的がある情報は構造に従って格納されますが、現状ではビジネス価値がまったくない場合があります。データ・レイクはいずれ使用する可能性がある情報のアーカイブを作成する、将来に備えた方法です。
これをデータ・ウェアハウスと比較してみましょう。データ・ウェアハウスの中のフォーマットされた情報には、すでに用途があります。
そのため、毎回同じ方法で同じ情報を取得する必要のあるビジネス・ユーザーにすばやくインサイトを提供できます。データ・ウェアハウスはデータ構造に従って情報を格納するのと同様に、情報を構造化および確立された方法で提供します。
データ・レイク内の情報を探して変換するには、データ・サイエンティストと特別なツールが必要です。データ・レイクは自由度が高いため、新しい方法で情報を引き出せます。
ビジネス・ユーザーにはそのような柔軟性は必要ありません。ビジネス・ユーザーに必要なのは、毎回同じフォーマットで適切なデータが表示されることです。データ・ウェアハウスはデータを整理してメトリックやレポートにし、利用しやすくします。
すべての企業が、複数のアプリケーションの情報を保存する必要があるとは限りません。その場合は、指定したプログラムに関連する情報のみをデータ・ベースに保存します。
データを集中化してインサイトを提供することはいずれも同じです。
データ・ウェアハウスとデータ・レイクが複数ソースに対応したフォーマットであるのに対し、データ・ベースは1つのソースの情報を保存、検索、レポートします。対象が制限されているため、最も簡単に作成してインストールできます。そのほとんどがリレーショナル・データ・ベースで、情報を記録するだけでなく、異なる項目間の関係性も記録します。
しかし、データ・ベースを使用できるのは単一のアプリケーションが生成した情報のみです。他の2つのストレージ・ソリューションはあらゆる分野の情報を処理できます。
業務上の新しい質問や異なる情報のリクエストはデータ・ウェアハウスが対応しきれないほど急速に変化しています。データ・レイクでは、非構造化データに簡単にアクセスできるため、調査のスピードを上げることができます。データ・ベースは単一のアプリケーションにしばられているため、この種の大規模な処理には有効と言えません。
データ・ベースは情報を固定化された構造で保存し、複数ソースからのデータ保存にも対応していません。複数のフォーマットや構造はデータ・ベースでは簡単に解析できません。しかし、この制限のある構造も、データ解析や単一モジュール型のアプリケーションには最適です。データ・ベースがサービスを提供するアプリケーションと同様に、データ・ベース自体も独立している場合に力を発揮します。
同様に、データ・ウェアハウスの構造も、その制限範囲内で解析を実行する場合は円滑な処理に役立ちます。KPIやメトリックを取得し、システムを正常に稼働させ続ける必要のある運用担当のユーザーには、データ・ウェアハウスが適しています。
データ・ウェアハウスにデータを格納するには、データの解析とソートが必要です。この作業には時間と経費がかかります。時間と経費のいずれも足りない場合は、処理をまったく必要としないデータ・レイクを検討します。
データ・レイクもデータ・ウェアハウスも、ユーザーやフォーマットの異なる複数ソースからのデータ収集を実行できます。データ・ベースがデータをプルできるのは1つのアプリケーションのみであるため、関連する情報を簡単に収集してソートできます。
データ・レイクはボリュームが大きいため、他のソリューションよりはるかに多くのストレージ容量を必要とし、結果としてコストが高くなります。データ・ベースは単一のアプリケーションに関連付けられているため、より少ない容量で済みます。データ・ウェアハウスはその中間です。
データ・ウェアハウスは最新の関連情報のみを格納するため、コストと容量を無駄にすることなく重要な情報を格納できます。
セットアップに通常より高いコストがかかるものの、優れたクラウド・サービス・プロバイダやエキスパートのセットアップによるメリットによりコストを簡単に回収でき、コスト効率を上げることができます。
対象のユーザー・ベースを検討します。データ・ウェアハウスは多くの対象者にインサイトを提供でき、ビジネス・クライアントに適しています。一方、データ・レイクではデータ・サイエンティストが自由にソリューションを選択できます。
どのアーキテクチャを選択しても、Seagateなら確実に実現できます。常時稼働の可用性と比類のない柔軟性を備えたSeagate Lyve Cloud は、業界をリードするストレージ・ソリューションとしての地位を確立しました。