なぜDWHが必要なのか
これまで汎用DBMSとして利用されてきたRDBMS(関係データベース管理システム)ですが、近年では基幹系システムのOLTP(オンライン・トランザクション処理)のみならず、情報系システムのデータ・ウェアハウス(以下、DWH)系処理でも広く利用されています。
第1回目となる今回は、DWH系処理の特徴を踏まえた上で、現在最も普及している汎用DBMSのDWH系処理における課題について検討します。まず本題に入る前に「なぜDWHが必要とされているのか」について、時代背景にも触れながら確認しておきます。
1969年にE.F.コッドが提唱し、1980年代には実用化を経て普及期を迎えるRDBMSですが、1990年代にはネオダマ(ネットワーク、オープンシステム、ダウンサイジング、マルチメディアの略)と呼ばれる急激な技術革新により、大型汎用機で統合化されていたデータは、ローカル組織ごとに構築されたサーバに分散されます。その結果、分断されたシステム間ではデータの横串しができなくなり、経営のための情報活用は一層困難な時代を迎えます。そこで登場したのが、1990年代後半にW.H.インモンが提唱したDWH(データ・ウェアハウス)という仕組みです。DWHとはその名のとおり「データの倉庫」であり、データ分析で用いられるデータが長期間にわたって蓄積されます。DWHは様々な情報活用ニーズに対応するため、格納されるデータは顧客や売上など目的別に整理/統合され、削除/更新されずに時系列に保持されます。また、DWHには基幹系システムの業務データだけでなく、分析に必要となる様々なデータも取り込まれるようになります。
例えば、ネオダマで分散したローカル組織のデータや、国内外の工場や営業拠点で管理されているデータ、グループ会社や取引先が提供するデータ、分析用に購入する市場データなどの外部データです。最近では、Webサイトのログ・データやソーシャル・メディア・データ、さらには、GPSやICカードなどの検知により発生するセンサー・データなども入手できるようになり、分析対象として注目する企業が増えています。例えば、顧客の購買履歴/行動履歴/プロファイルなどのデータを分析することで、担当者の経験や勘といった曖昧な将来予測ではなく、より的確で戦略的なダイレクト・マーケティング(例:ダイレクト・メール、クーポン、レコメンデーションなど)ができるようになります。ビッグデータ時代とも言われる現在、これまで以上に大規模なデータをいかに高速かつ高い頻度で分析できるかが、情報活用基盤であるDWHに求められています。
それでは、DWH系処理とは一体どのような処理なのか、その特徴についてご紹介します。