DWH(データウェアハウス)とは?②実際に導入する際の注意点や計画、具体例まで徹底紹介!

DWHについて、概観や歴史などについての前回記事はこちらからご覧ください!

DWH(データウェアハウス)とは?①定義から歴史、種類と利用場面までを解説!あなたのビジネスに必要なデータ管理が見つかるかも?

DWHの使用段階

前回の記事ではDWH(データウェアハウス)の歴史について概観しました。データ管理がビジネスの現場で実践された当初、企業では比較的シンプルなDWHが活用されていました。しかしながら、時間の経過とともにより洗練され、利用場面に最適化された方法が取られるようになっていきました。この項では具体的な使用方法を段階を追いながらみていきます。

オフラインDB(データベース)

この形式では、データは単にサーバーにコピーされるという形式をとります。コピーされたデータの読み込み、処理、および分析は事業や母体となるシステムには干渉しません。

オフラインDWH

DWHに格納されたデータは運用元のシステムに合わせて、定期的に更新されます。また、その事業やシステムの目的に沿ったデータのアクセスが確保され、保存される型も調整されています。

リアルタイムDWH

オフラインDWHでは定期的な更新でしたが、この段階では運用母体で取引が発生するたびにデータの更新が行われます。例えば、航空会社や鉄道の予約システムなどがこの形式を用いています。

統合型DWH

これまでの段階が全て取引やその結果を整形して保存しておくだけだったのに対して、統合型DWHでは母体となるシステムと双方向の関係にあります。フロントエンドで取引が起こると、その情報はDWHへ送られ保存されます。それと同時にDWHが新たな処理を実行し、運用システムへ引き渡します。

DWHを導入するまでの流れ

ビジネスの現場にDWHを導入する時にははまず以下の3つの戦略について考えましょう。

①企業戦略

まずは技術的なトレンドや利用可能な資源を明確にします。この戦略を軽んじて大きな目標だけを追うことはどのようなビジネスにおいても得策と言えないでしょう。DWHについて特筆すれば、この段階で収集すべきデータ、管理する次元数、属性やデータマッピング、変換される型などについても議論しておきます。

②段階的戦略

DWHの導入は段階的に行われる必要があることも忘れてはいけません。現在開発している領域を意識しつつ、まずはその分野に特化して整備が行われます。その後、実装された物どうしを統合していくのです。もちろん、闇雲に様々な領域についてのデータを収集することが起きないために前段の「企業戦略」が重要になります。

③プロトタイピングの繰り返し

「段階的戦略」の項でも触れたように、DWHの導入の際は一度に全てを行う必要はありません。むしろプロトタイプを作り、実装し、評価するという流れを何度も反復すべきなのです。

では、以上3つの戦略に則り主要なステップとその段階ごとの目標をみていきます。

ステップ目標成果物
1プロジェクトの範囲を定める範囲定義
2ビジネス上の必要性を判断するデータモデル
3運用上のデータモデルの要件定義オペレーショナルデータストアモデル
4データ抽出方法の調達/開発抽出ツールとソフトウェア
5DWHのデータ要件定義取引データモデル
6この時点で不足しているデータの書き出しデータについてのTO DOリスト
7運用システムからDWHへの移行計画データ移行計画書
8DWHの設計実際のDWH設計図
9運用システムからデータを抽出する統合された、DWHに格納されるデータ群
10DWHを読み込むデータ読み込み開始
11保守・運用・維持データへのアクセス、読み込みの維持

実践法まとめ

  • データの整合性、正確性、完全性をテストする計画を定めましょう
  • DWHは十分に統合され、明確に要件定義がなされている必要があります
  • DWHを設計する際には適切なツールを用いながらデータの取引が漏れ無く重複なく行われることに留意しましょう
  • 途中で運用元を別のものに置き換えてはいけません
  • データの抽出、選別、読み込みに時間をかけすぎないようにしましょう
  • 事業に関わる全ての関係者を確実に巻き込みつつ導入を進めましょう
  • エンドユーザー(最終的にサービスを使う人)にとって有益なDWH設計を心がけましょう
  • エンドユーザーが適切に使用できるようなプランを用意しましょう

DWH導入による長短

得られる利点

  • 企業をはじめとする組織にとって、複数のソースから重要なデータに素早くアクセスすることを可能にする
  • 多くのデータソースが統合されることで生産システムなどの効率化が図れる
  • 過去のデータについての分析やレポート作成などにかかる時間を圧倒的に短縮
  • 分析やレポート作成に関して、効率化が図れる
  • 複数のソースから構成されるデータ群であるため重要なデータへアクセスする手間が大幅に省ける
  • 特定の事業や組織に関わる膨大なデータを擁するため過去から現在にかけてのトレンドの変遷などを辿ることができ、戦略形成に貢献する

考えられるコストやリスク

  • 構造化されていないデータにとっては意味がない
  • DWHの導入には確実に時間と労力がかかる
  • 技術的進歩に応じて、必要性が薄れる可能性は否めない
  • データの型や範囲、データソースなどの変更が複雑である
  • 使用者の研修が必要である

サービス紹介

①MarkLogic

MarkLogic はこれまで紹介したDWHの特徴がもろに反映されたサービスです。様々なデータソースを一元化することでより早く、簡単に企業の特徴を捉えることができます。文書、数値などからそれらのメタデータまで複雑な作業が含まれる業務分析を助けます。

②オラクル

言わずとしれた世界的なソフトウェア企業です。オンプレミスからクラウドに夜管理までDWHに関する幅広い解決策を提示しています。

画像イメージ

オンプレミスってどういう意味?定義から初心者でも分かるように解説

③AmazonRedShift

このツールでは、標準的なSQLや既存のBIツールを用いたあらゆる種類のデータ分析が可能です。シンプルかつコストパフォーマンスもよく、ペタバイトを超える構造化データに対して複雑な処理を実行することも可能です。

DWHの今後

データビジネスの伸長とともにDWHの技術的限界についてもいくつかの議論があります。

  • 情報通信技術に関する規制には大きな変更がつきものです。規制の変更によって社内外の複数のデータソースから統合・保守が困難になる可能性もあります。
  • データベースのサイズについても議論が尽きません。現在利用可能なハード、ソフト両方の資源では大量のデータをオンライン上に保存することは難しいと言われています。オンプレミスで行うにはかなりのコストがかかってしまうため、物理的限界については考慮されるべきでしょう。
  • メディアなどの領域に多いのがテキストデータです。現在、テキスト処理については操作が複雑であり技術費や人件費が高くつきます。しかし、このテキスト処理方法は目下研究が進められている領域でもあり、新たな方法論や技術が生まれる可能性はあります。

まとめ

いかがでしたでしょうか?2回に分けてDWHの概論から具体的な導入や課題について紹介してきました。今回紹介できなかったDWHの具体的なツールについて、後日また改めてまとめようと思います。

皆様のデータビジネスへの理解、展開のお役に立てれば幸いです!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です