第二世代までのしがらみを捨てて独立したPivotal
EMC、VMwareから分かれEMCグループ第三の企業Pivotalが誕生したのは2013年4月。当初は、同社の設立目的は業界の中で理解されにくかったといえる。というのも、Pivotalの主要製品「Greenplum Database」は、EMCのビッグデータソリューションを担う製品としてその名が市場に定着し始めたところで、その実績を捨て新しいブランドを立ち上げることには多少疑問もあった。さらには、出資企業に世界最大のコングロマリット「ゼネラル・エレクトリック」が入っていたことも、IT業界の常識からは意外で、わかりづらさを招いた理由ともいえる。
「なぜPivotalという企業を創ったのか。それは、第三世代のプラットフォームという新しいソリューションを、第二世代までのしがらみなく提供するためです」
Pivotalジャパン カントリー・マネージャーの正井拓己氏は、過去のしがらみをなくすには独立した新しい組織が必要だったと言う。第三世代のプラットフォーム、これはGoogleやFacebookが率先して進めている世界であり、大量なデータを集めそこから価値を見いだしそれをサービスとして提供する。提供するサービスから再び大量データを集め、新たな価値を生み出す。この流れを続けるソリューションを顧客に提供するには、第二世代までのエンタープライズITの世界と考え方を大きく変える必要があったのだ。
GoogleやFacebookと異なり、どちらかと言えば旧来型の世界にいると思われがちなゼネラル・エレクトリック。彼らもいまや、大量なデータをビジネスにどう活用すればいいかに真剣に取り組んでいる。たとえば同社の製品である航空機エンジンのようなものには、数多くのセンサーが取り付けられておりそこから日々ビッグデータが生まれている。それをリアルタイムに分析しビジネスに活用するのは、いまや当たり前のことなのだ。
ゼネラル・エレクトリックでは、この第三世代のプラットフォームにインダストリアル・インターネットという戦略で対応しようとしている。インダストリーごとにデータ分析のプラットフォームを構築するのではなく、インダストリーを横断する形で生まれてくるビッグデータをリアルタイムに扱えるプラットフォームを用意する。それに対し各インダストリーに特化した分析環境を提供するものだ。
ゼネラル・エレクトリックでは、この新たなプラットフォームをすでにGreenplum DatabaseとHadoopをベースに構築している。これはまさにPivotalの製品ポートフォリオと重なるところ。そういった点からも同社はPivotalに出資したわけだ。逆にPivotalにとっては「ゼネラル・エレクトリックは第三世代のプラットフォームの重要なユースケースになります」と正井氏は言う。
データレイク構築で、ビッグデータもファストデータもリアルタイムに活用
Pivotalの主要なビジネス対象となるのが、ビッグデータとファストデータをリアルタイムに処理する領域だ。Pivotalには、すでに世界中に1,000社を超える顧客がいる。その主たる部分はこの領域にいる。構造化データを扱うデータウェアハウスに対応するのが「Greenplum Database」だ。より大量に存在する非構造化データを主に扱うのはHadoopのソリューション「Pivotal HD」で対応する。
Pivotal HDにはSQLエンジンの「HAWQ」があり、ネイティブSQLをほとんどオーバーヘッドなしで利用できる。またファストデータを扱うのは「Pivotal GemFire」だ。このようにビッグデータ、ファストデータを扱うための製品をフルに揃えているのがPivotalの特長だ。
この品揃えは「偶然ではありません」と正井氏は言う。分析システムごとにデータウェアハウスやデータマートを作るのではなく、統合したエンタープライズ・データウェアハウスを構築するデータレイクという考え方がある。これは主に正規化した基幹系システムのデータなどを一元的に集めたものだ。第三世代のプラットフォームでは、これが企業の枠を超え横断的なデータレイクとなる。その際には正規化されるデータだけを溜めるのではなく「今後、どういう使い方をするかまだ分からないようなデータも溜めざる得なくなります」と正井氏。
この新しいデータレイクは、「ここに行けばすべてのデータがある」というものだ。データへのアクセス方法は異なってもいいが、とにかくここには全部ある。すぐに高度な分析をしたければ条件で絞り込んでデータレイクから抽出し、その結果をGreenplum Databaseのデータウェアハウスに取り込む。
すぐには使わないが増え続けるデータは、Hadoopを活用しデータレイクに溜めておく。Pivotal HDではネイティブSQLを利用できるので、ユーザーからはデータウェアハウスのデータもHadoopにあるデータも1つに見えるようになる。これにさらにファストデータを加えることも可能だ。発生するデータを溜めずに、リアルタイムにフィルタリングして扱うことができる。
「こういったデータレイクは、コンセプトではなくすでに具現化されているものです」(正井氏)
HadoopでもSQLを使えるようにしたことで、アプリケーションについてはどんなものにでも対応できる。さらにそれにGemFireを連携させファストデータも同時に扱える。
Hadoopに力を入れているが、PivotalはHadoopベンダーになろうとしているわけではない。「HadoopというよりはむしろファイルシステムのHDFSにコミットしています」と言うのは、Pivotalジャパン 技術統括部 テクニカルディレクターの仲田 聰氏だ。分散処理に向いたHDFSを取り込み1つの統合化されたデータマネージメントのセットして提供する。これがPivotalの戦略なのだ。