DWHについて、概観や歴史などについての前回記事はこちらからご覧ください!
Contents
DWHの使用段階
前回の記事ではDWH(データウェアハウス)の歴史について概観しました。データ管理がビジネスの現場で実践された当初、企業では比較的シンプルなDWHが活用されていました。しかしながら、時間の経過とともにより洗練され、利用場面に最適化された方法が取られるようになっていきました。この項では具体的な使用方法を段階を追いながらみていきます。
オフラインDB(データベース)
この形式では、データは単にサーバーにコピーされるという形式をとります。コピーされたデータの読み込み、処理、および分析は事業や母体となるシステムには干渉しません。
オフラインDWH
DWHに格納されたデータは運用元のシステムに合わせて、定期的に更新されます。また、その事業やシステムの目的に沿ったデータのアクセスが確保され、保存される型も調整されています。
リアルタイムDWH
オフラインDWHでは定期的な更新でしたが、この段階では運用母体で取引が発生するたびにデータの更新が行われます。例えば、航空会社や鉄道の予約システムなどがこの形式を用いています。
統合型DWH
これまでの段階が全て取引やその結果を整形して保存しておくだけだったのに対して、統合型DWHでは母体となるシステムと双方向の関係にあります。フロントエンドで取引が起こると、その情報はDWHへ送られ保存されます。それと同時にDWHが新たな処理を実行し、運用システムへ引き渡します。
DWHを導入するまでの流れ
ビジネスの現場にDWHを導入する時にははまず以下の3つの戦略について考えましょう。
①企業戦略
まずは技術的なトレンドや利用可能な資源を明確にします。この戦略を軽んじて大きな目標だけを追うことはどのようなビジネスにおいても得策と言えないでしょう。DWHについて特筆すれば、この段階で収集すべきデータ、管理する次元数、属性やデータマッピング、変換される型などについても議論しておきます。
②段階的戦略
DWHの導入は段階的に行われる必要があることも忘れてはいけません。現在開発している領域を意識しつつ、まずはその分野に特化して整備が行われます。その後、実装された物どうしを統合していくのです。もちろん、闇雲に様々な領域についてのデータを収集することが起きないために前段の「企業戦略」が重要になります。
③プロトタイピングの繰り返し
「段階的戦略」の項でも触れたように、DWHの導入の際は一度に全てを行う必要はありません。むしろプロトタイプを作り、実装し、評価するという流れを何度も反復すべきなのです。
では、以上3つの戦略に則り主要なステップとその段階ごとの目標をみていきます。
ステップ | 目標 | 成果物 |
---|---|---|
1 | プロジェクトの範囲を定める | 範囲定義 |
2 | ビジネス上の必要性を判断する | データモデル |
3 | 運用上のデータモデルの要件定義 | オペレーショナルデータストアモデル |
4 | データ抽出方法の調達/開発 | 抽出ツールとソフトウェア |
5 | DWHのデータ要件定義 | 取引データモデル |
6 | この時点で不足しているデータの書き出し | データについてのTO DOリスト |
7 | 運用システムからDWHへの移行計画 | データ移行計画書 |
8 | DWHの設計 | 実際のDWH設計図 |
9 | 運用システムからデータを抽出する | 統合された、DWHに格納されるデータ群 |
10 | DWHを読み込む | データ読み込み開始 |
11 | 保守・運用・維持 | データへのアクセス、読み込みの維持 |
実践法まとめ
- データの整合性、正確性、完全性をテストする計画を定めましょう
- DWHは十分に統合され、明確に要件定義がなされている必要があります
- DWHを設計する際には適切なツールを用いながらデータの取引が漏れ無く重複なく行われることに留意しましょう
- 途中で運用元を別のものに置き換えてはいけません
- データの抽出、選別、読み込みに時間をかけすぎないようにしましょう
- 事業に関わる全ての関係者を確実に巻き込みつつ導入を進めましょう
- エンドユーザー(最終的にサービスを使う人)にとって有益なDWH設計を心がけましょう
- エンドユーザーが適切に使用できるようなプランを用意しましょう
DWH導入による長短
得られる利点
- 企業をはじめとする組織にとって、複数のソースから重要なデータに素早くアクセスすることを可能にする
- 多くのデータソースが統合されることで生産システムなどの効率化が図れる
- 過去のデータについての分析やレポート作成などにかかる時間を圧倒的に短縮
- 分析やレポート作成に関して、効率化が図れる
- 複数のソースから構成されるデータ群であるため重要なデータへアクセスする手間が大幅に省ける
- 特定の事業や組織に関わる膨大なデータを擁するため過去から現在にかけてのトレンドの変遷などを辿ることができ、戦略形成に貢献する
考えられるコストやリスク
- 構造化されていないデータにとっては意味がない
- DWHの導入には確実に時間と労力がかかる
- 技術的進歩に応じて、必要性が薄れる可能性は否めない
- データの型や範囲、データソースなどの変更が複雑である
- 使用者の研修が必要である
サービス紹介
①MarkLogic
MarkLogic はこれまで紹介したDWHの特徴がもろに反映されたサービスです。様々なデータソースを一元化することでより早く、簡単に企業の特徴を捉えることができます。文書、数値などからそれらのメタデータまで複雑な作業が含まれる業務分析を助けます。

②オラクル
言わずとしれた世界的なソフトウェア企業です。オンプレミスからクラウドに夜管理までDWHに関する幅広い解決策を提示しています。

③AmazonRedShift
このツールでは、標準的なSQLや既存のBIツールを用いたあらゆる種類のデータ分析が可能です。シンプルかつコストパフォーマンスもよく、ペタバイトを超える構造化データに対して複雑な処理を実行することも可能です。

DWHの今後
データビジネスの伸長とともにDWHの技術的限界についてもいくつかの議論があります。
- 情報通信技術に関する規制には大きな変更がつきものです。規制の変更によって社内外の複数のデータソースから統合・保守が困難になる可能性もあります。
- データベースのサイズについても議論が尽きません。現在利用可能なハード、ソフト両方の資源では大量のデータをオンライン上に保存することは難しいと言われています。オンプレミスで行うにはかなりのコストがかかってしまうため、物理的限界については考慮されるべきでしょう。
- メディアなどの領域に多いのがテキストデータです。現在、テキスト処理については操作が複雑であり技術費や人件費が高くつきます。しかし、このテキスト処理方法は目下研究が進められている領域でもあり、新たな方法論や技術が生まれる可能性はあります。
まとめ
いかがでしたでしょうか?2回に分けてDWHの概論から具体的な導入や課題について紹介してきました。今回紹介できなかったDWHの具体的なツールについて、後日また改めてまとめようと思います。
皆様のデータビジネスへの理解、展開のお役に立てれば幸いです!
コメントを残す