Hadoopとの連携でビッグデータ時代にいち早く対応する
― 大量のトランザクションデータを分析するニーズが増えてきた一方で、ソーシャルメディアのデータやWebのログ、あるいはセンサーデータといった非定型データなど、いわゆる「ビッグデータ」と呼ばれる様々な種類のデータの量が爆発的に増えてきています。こうした新たな潮流に対しては、テラデータはどのようなソリューションを提供するのでしょうか。
われわれの考え方は、すべてのデータを何もかもTeradataのEDWの中に取り込むというものではありません。最近注目を集めているHadoopのような新しい技術は、非常に大容量の非構造化データを効率よく処理できるようになってきていますので、そういった技術との連携を深めていくことで、ビッグデータに対するソリューションを提供していこうと考えています。事実、米国テラデータでは現在、Hadoop ベースのデータマネジメントソリューションやサービスを提供するClouderaとの技術提携、協業を進めています。
ビッグデータと呼ばれる情報の中には、確かに企業にとって価値の高いものが含まれていますが、一方ではそうでないデータも多く含まれています。そうしたデータまですべてTeradataの中に取り込んで分析の対象にするのは、効率的とはいえません。従って、詳細かつ迅速に分析する必要があるデータは、Hadoopから抽出してTeradata に取り込む一方、そうでないデータはそのままHadoopの中に溜めておきます。そして、このようなデータの分類をどう行っていくかが、今後の課題になっていくかと思います。
― Hadoopから、分析に必要なデータだけをTeradata に抽出できるようなソリューションが実現するわけですね。
はい。現在Hadoopのデータを抽出して、Teradata に取り込むための連携ソフトウェアが開発されており、そのプロトタイプがすでに運用されています。われわれが見るところHadoopを導入する企業は当初は「何でもHadoop 上でできるのではないか?」と大きな期待を抱いていますが、いざ実際に利用してみると、様々な限界や制約に突き当たることが多いようです。従って、当初はHadoopだけですべてのニーズを満たそうと計画していた企業でも、やはりTeradataのようなDWHソリューションと組み合わせて利用するべきだと考えを改めるケースが増えてきています。
― 分析のニーズに応じてデータを分類することが重要とのお話ですが、そのために貴社ではどのようなソリューションを提供しているのでしょうか。
すでにテラデータの製品には、ワークロード管理機能の一環として、データの重要度に応じて自動的にディスク上でデータの配置換えを行う機能が実装されています。参照される頻度が高いデータをシステムが判別して、高速に読み出すことができるディスク領域に自動的に配置するのです。また、将来的にSSDが製品に実装された場合には、参照頻度の高いデータを読み出しスピードの速いSSD上に、そうでないデータは大容量のHDD上に自動的に配置することも可能になります。
テラデータ製品の最大の特徴は、こうしたチューニングが自動的に行われるところにあります。これは、非常に重要なポイントです。EDW のような複雑なデータベースになりますと、通常は運用管理に多大なコストが掛かりますが、これを大きく削減できるのがテラデータの大きな強みです。(次ページへ続く)