クラウドでデータウェアハウスをやれば安上がり
今回発表された「Amazon Redshift」は、クラウド上でペタバイト規模のデータウェアハウスを実現できるサービスだ。正式リリースではないが、”Limited Preview”としてすでに公開されている。数百ギガバイトからペタバイトクラスの容量まで拡張性があり、ペタバイト規模のデータウェアハウスとなってもストレージ容量がテラバイト当たり年間1,000ドル以下で利用できる。
このRedshift、昨今データウェアハウスなどの分析データベースでは当たり前にもなりつつあるカラムナーストレージと圧縮機能を搭載して高い処理で性能を発揮する工夫がなされているようだ。ハードウェア構成もDWH用にカスタマイズされている。各ノードはローカルストレージを持ち、ノード間は10G Ethernetのネットワークで接続される。アーキテクチャとしては、いわゆるシェアードナッシング型でありMPP型の構成をとっているようだ。BIツールとしてはJaspersoftとMicroStrategyという2つの製品が、現時点で認証済み。他のBIツールについても、順次対応してくる。
拡張性を得るためのノード追加の際にも、ダウンタイムは発生しないとのこと。これ、シェアードナッシングなので、ダウンタイムはないとしても、ディスクへのデータの再配置とかに結構時間がかかったりしないのかなぁと、ちょっと心配にもなる。とはいえ、データウェアハウスを日常的に運用していく上で必要な、キャパシティのプロビジョニングやモニタリング、クラスターのセットアップ、パッチ当てやアップグレードなど、必要な操作はすべてクラウド側で管理してくれる。ようはデータウェアハウスシステムの運用管理に手間取らされることはなく、データウェアハウスを利用、活用することだけに注力できるのがクラウドサービスのRedshiftの特長になっている。
構成としては2TBの圧縮ストレージノード(2仮想コアで15GBメモリ)と、16TBの圧縮ストレージノード(16仮想コアで120GBメモリ)の2つから選択可能。2TBのほうはシングルノードから32ノードまで拡張可能で、16TBのほうは2ノードからなんと100ノードまで拡張できる。実際のノード追加は、AWS Management Consoleからか、あるいはAPI経由でも可能。これらで、性能が欲しいときにだけ簡単に追加できる。
費用はオンデマンドプライス、つまり利用した分だけ支払えばいい。事前に払う必要もないし、長期契約の縛りもない。ただし、1年、3年と長期契約すれば費用は大きく割り引きされる。エントリー価格は2TBのストレージノードの利用で、1時間あたり0.85ドル。3年契約で16TBストレージを利用する場合は、1時間あたり0.912ドルで、これは1TBあたりの価格にすると年間999ドルになる。
セキュリティー機能としてはSSLに対応、ファイヤーウォールの設定も可能で適宜アクセスコントロールができる。本番サービスを開始する際には、Amazon Virtual Private Cloudにも対応する予定だとか。クラスター内で自動的にレプリケーションすることで、可用性の確保は行っている。さらに、ストレージサービスのAmazon S3にも、継続的にバックアップを行う。システムは常時モニターされていて、なんらかのトラブルでコンポーネントの交換が必要であれば、自動的に交換がなされる仕組みとなっている。
なんだか安いし速そうだし、いいことずくめに見える。とはいえ、企業内の基幹系システムなどからの莫大なソースデータを、インターネット越しにどうやって受け渡せばいいのかといった課題もありそうだ。Amazon EC2で動いているERPとかがあれば、それをソースにすればそんな心配も必要ないだろうけれど。これからは、本当にすべてのシステムをクラウドの上にという時代なのかもしれない。