最も価値のある企業はデータドリブンである
世界で最も重要な資源はもはや石油ではなくデータである。そう表現されるようになり、久しい。企業の株式時価総額でもそれが見てとれる。2007年を基準として、2017年までの10年間でどれだけ株式時価総額が伸びたかを見ると、Amazon、Facebook、Apple、Google、Microsoftの株式時価総額の伸びは顕著だ。S&P 500の増加率が66%に対し、先述したデータドリブンの企業は数倍規模になっている。
Cloudera Inc CEO トム・ライリー氏は「データを活用することで顧客を理解し、よりいいサービスや製品を提供し、あるいは提案できる」と話す。
ライリー氏はハーバードビジネスレビューのレポートを引用し、従来型の業界や企業においては分析で使われるデータのうち非構造化データはほんのわずかでしかないか、全く使われていないと指摘する。またアナリストの業時間の約8割がデータの特定や準備に費やされているという調査結果もある。つまりデータ、特に非構造化データから価値を引き出すことはまだ手つかずの状態だ。ライリー氏は「データを活用することで企業がビジネスで成功を収めることができるよう、我々は力になりたい」と話す。
Clouderaは2008年に設立し、現在では世界28ヶ国で社員は1600人以上、パートナー数は3000を超えるほどに成長した。また顧客増加数も契約拡大も伸びているとライリー氏はClouderaのビジネスが好調であることを強調する。日本ではDMM.comがレコメンドエンジンでClouderaのApache Sparkを活用、ドワンゴがビッグデータ分析でHadoopを利用するなど、データ活用の事例が増えてきている。
近年Clouderaのデータプラットフォーム「Cloudera Enterprise」を利用する場合、Sparkをベースに機械学習を行うか、Impalaのクエリエンジンでデータ分析を行うケースが多いそうだ。それぞれ顧客実績は800社以上あり、重複率は80%と高い。1つのプラットフォームで機械学習と分析の両方ができることが強みの一因だ。
Cloudera Enterpriseはデータストアが柔軟であることも特徴となっている。データはオンプレにあるHDFSのほかに、AmazonのS3やMicrosoft AzureのAzure Data Lake Storeなどのパブリッククラウドサービスも使える。
プラットフォームで重要な役割を果たしているのがCloudera SDX(shared data experience)。ライリー氏は「SDXがあることでセキュリティを保ち、アクセス管理、取り込みや複製などのデータ管理なども行えます」と話す。
ほかにもライリー氏はデータサイエンティスト向けのソリューション「Cloudera Data Science Workbench」を挙げる。これはTensorFlow、R、Pythonなどの言語をサポートし、コラボレーティブな環境で再現性のあるデータ分析を可能とする。データサイエンティストの生産性向上に寄与すると期待できる。なおClouderaは2017年9月に機械学習や応用AIの研究開発企業となる「Fast Forward Labs」の買収を発表している。
さらに今後同社は「Cloudera Altus」と呼ばれるソリューションに注力していくことになりそうだ。ライリー氏はこれを「マルチクラウドかつ多機能なPlatform-as-a-Service」と説明する。パブリッククラウドサービス上でセキュアにデータ分析を行い、統合的なデータパイプライン処理を可能とする。