Impalaの登場がHadoopの転機に
そんなHadoopの企業向けディストリビューションを提供しているClouderaのチーフ・オペレーティング・オフィサー カーク・ダン氏は「我々はHadoopを6年前に商業化しました。従来のデータ管理技術にはビッグデータを扱うには遅くて高いという問題がありました。大規模なデータの管理を低コストで行う。そのためには新しい技術を発明する必要があったのです」と語る。Hadoopが登場する以前はデータベースが遅くて高いがために、一部のデータを抽出しサマライズした結果のデータしか扱えなかった。それがHadoopの登場で「完璧なデータ」を扱えるようになり、企業にとって新たなチャンスをもたらしているというのだ。
とはいえビッグデータ活用におけるHadoopは、蓄積したデータの「バッチ処理的なもの」が得意。それを低コストで高速に行えるのがこれまでの評価ポイントだっただろう。そんなHadoopの状況を変化させるきっかけとなったのがImpalaの登場だと言うのは、Clouderaのチーフ・テクノロジストのイーライ・コリンズ氏だ。Impalaは、MapReduceではなくSQLを使ってHadoopにアクセスするテクノロジー。しかし、それだけではない。
「Hadoopのビッグデータに対し、低レイテンシーでのアクセスを可能にしました。これによりアドホックな分析をビッグデータに行えるようになり、洞察を得る時間の短縮が実現しました」(コリンズ氏)
バッチ処理での利用ではHadoopは舞台裏にいる。Impalaの登場で表舞台に上がり、Hadoopはユーザーが直接利用するものになったのだ。とはいえ、Hadoopだけでビッグデータのすべてを賄えるものでもない。MongoDBのような新しいNoSQLもあれば、旧来のリレーショナル・データベース、さらにはその改良型とも言えるカラム指向のデータベースもある。そういう状況の中で、ClouderaとしてはHadoopをエンタープライズ・データ・ハブとして利用するとコリンズ氏は主張する。
「Hadoopとそれ以外のデータベースを使って、1カ所で分析ができるようにします。それで一貫していて統一された分析が可能になります」(コリンズ氏)
こういった分析環境のことをデータレイクなどとも呼ぶ。たしかにこれが実現できれば、企業のデータ分析に関する問題の多くが解決できるだろう。しかし、エンタープライズ・データ・ハブという考え方は「理想論」であり実現は簡単ではないのではとも思うところ。
「データウェアハウスがリレーショナル・データベースを使うための方法論であるように、エンタープライズ・データ・ハブはHadoopを使うための方法論の1つです。一気に構築する必要はなく、段階的にエンタープライズ・データ・ハブの環境を構築すればいい。最初は1つのデータソースでもよく、それに徐々に追加すればいい」(コリンズ)