データウェアハウス構築の現場で投げかけられるさまざまな疑問
データウェアハウス・システムを構成するコンポーネントは、大雑把に言えばETLツール、データベース、クエリツールの3つであり、基本的な組み立て方は、ETLツールでデータベースにデータを流し込んでクエリツールで参照するという非常にシンプルなものです。システムの構成がすぐに頭に思い描けるため、ほとんどの方が「構築自体も簡単」だと考えられていると思います。
ところが、実際に開発を行っている現場では、データウェアハウスの概念や構築方法といった根本的なところでさまざまな疑問(質問)が発生しています。
いくつか紹介しますと、
- 「セントラルウェアハウスは必要なんですか?」
- 「データウェアハウスとデータマートって何が違うんですか?」
- 「データを統合することに何の意味があるんですか?」
- 「どんなデータモデルが最適なんですか?」
- 「時系列にデータを蓄積するにはどうすればいいのですか?」
- 「ETLツールは何故必要なんですか?」
- 「キューブ作成に時間がかかるんですが、キューブは必須なんですか?」
- 「OLAPをしたいのですがMOLAPとROLAPのどちらがよいですか?」
- 「生データだけでよいのですか?」
- 「BIツールとデータベースのどちらを先に検討すべきなんですか?」
- 「データウェアハウスのデータは絶対更新してはいけないのですか?」
- 「マスタコードが変更された場合、どのように対応すればいいのですか?」
- 「リアルタイムを実現できますか?」
などなどです。
確かに、業務系システムの構築に比べれば、データウェアハウス・システムの構築は簡単だと言えるかもしれませんが、具体的なものを作り上げる開発現場では、上記のようなさまざまな疑問が発生しているのも事実であり、この状況は、データウェアハウスが提唱されて十数年たった今でもさほど変っていないように思えます。データウェアハウスが広く浸透しない理由は幾つもあると思いますが、その一つに開発の困難性があるとすれば、上記の疑問が投げかけている問題を吟味することにも意味があるかもしれません。
そこでまず今回は「問題の認識」と位置付けて、上記の疑問の中のいくつかを紙面の許す範囲で紹介し、一体どんなところが難しいのかということをご理解いただこうと思います。そして次回は、「では、どうすればよいのか」ということで、私が指向するデータウェアハウス像を私見として述べ、それを踏まえて、次々回に「Sybase IQの有用性」を説明させていただこうと考えています。